Stability AI Japan最近發(fā)布了兩款令人矚目的日語(yǔ)語(yǔ)言模型,分別命名為“Japanese Stable LM3B-4E1T”和“Japanese Stable LM Gamma7B”。
前者具有大約30億參數(shù),而后者則擁有高達(dá)70億參數(shù)的龐大規(guī)模。這兩款模型以Apache2.0許可證發(fā)布,允許商業(yè)使用,為日本的自然語(yǔ)言處理領(lǐng)域帶來(lái)了一次革命性的突破。
這兩個(gè)模型的背景可追溯到之前發(fā)布的英語(yǔ)語(yǔ)言模型,具體為“Stable LM3B-4E1T”和“Mistral-7B-v0.1”。最初,它們?cè)谥饕褂糜⒄Z(yǔ)數(shù)據(jù)進(jìn)行訓(xùn)練,因此在英語(yǔ)處理方面表現(xiàn)出色,但在日語(yǔ)處理能力上受限,這是因?yàn)槿照Z(yǔ)數(shù)據(jù)相對(duì)較少。
為了提高其日語(yǔ)語(yǔ)言能力,這兩個(gè)模型經(jīng)歷了持續(xù)的預(yù)訓(xùn)練,利用了來(lái)自維基百科、mC4、CC-100、OSCAR和SlimPajama(不包括Books3)等數(shù)據(jù)源的大約1000億token。
這兩款模型的性能評(píng)估采用了與之前發(fā)布的“Japanese Stable LM Alpha”相同的方法。評(píng)估包括了日本語(yǔ)言理解基準(zhǔn)(JGLUE)任務(wù),涵蓋了句子分類(lèi)、句子對(duì)分類(lèi)、問(wèn)題回答和文本摘要等八項(xiàng)任務(wù)。結(jié)果顯示,盡管只有30億參數(shù),但“Japanese Stable LM3B-4E1T”在多項(xiàng)任務(wù)上表現(xiàn)出色,而“Japanese Stable LM Gamma7B”甚至獲得更高的分?jǐn)?shù),展示了這些模型在日語(yǔ)自然語(yǔ)言處理方面的卓越進(jìn)展。


產(chǎn)品與服務(wù)
聯(lián)系站長(zhǎng)
關(guān)于我們