中國AI翻譯技術再攀高峰。東北大學“小牛翻譯”團隊近日正式開源其最新大模型——NiuTrans.LMT(Large-scale Multilingual Translation),一舉實現(xiàn)60種語言、234個翻譯方向的全覆蓋,不僅以中文與英文為雙核心構(gòu)建全球語言橋梁,更在藏語、阿姆哈拉語等29種低資源語言上取得顯著突破,為全球語言平等邁出關鍵一步。
雙中心架構(gòu),打破“英語霸權(quán)”
區(qū)別于多數(shù)以英語為唯一樞紐的翻譯模型,NiuTrans.LMT采用中-英雙中心設計,支持中文↔58種語言、英文↔59種語言的高質(zhì)量直譯,避免“中文→英文→小語種”的二次失真。這一架構(gòu)尤其利好“一帶一路”沿線國家與中文使用者的直接溝通,推動跨文化交互去中介化。
三層語言覆蓋,兼顧效率與公平
模型精準劃分語言資源層級:
13種高資源語言(如法語、阿拉伯語、西班牙語):翻譯流暢度媲美人類;
18種中資源語言(如印地語、芬蘭語):在專業(yè)術語與語法結(jié)構(gòu)上高度準確;
29種低資源語言(含藏語、斯瓦希里語、孟加拉語等):通過數(shù)據(jù)增強與遷移學習,實現(xiàn)從“不可譯”到“可用譯”的跨越。
兩階段訓練,性能登頂FLORES-200
NiuTrans.LMT在權(quán)威多語言基準FLORES-200上表現(xiàn)卓越,穩(wěn)居開源模型榜首。其成功源于創(chuàng)新的兩階段訓練流程:
繼續(xù)預訓練(CPT):在900億tokens的多語言語料上均衡學習,確保小語種不被淹沒;
監(jiān)督微調(diào)(SFT):整合FLORES-200、WMT等高質(zhì)量平行語料(56.7萬條樣本,覆蓋117方向),精調(diào)翻譯準確性與風格一致性。
四大規(guī)模開源,從科研到商用全覆蓋
為滿足不同場景需求,團隊同步開源0.6B、1.7B、4B、8B四種參數(shù)規(guī)模模型,全部可在GitHub與Hugging Face免費下載。輕量版可在消費級GPU運行,適合移動端部署;8B版本則面向企業(yè)級高精度翻譯場景,支持API集成與私有化部署。
AIbase認為,NiuTrans.LMT的發(fā)布不僅是一項技術成果,更是對“語言多樣性保護”的實際行動。當AI能精準翻譯藏語詩歌、非洲諺語或北歐古語,技術才真正具備人文溫度。東北大學這一開源舉措,正為全球構(gòu)建一個無語言壁壘的數(shù)字未來奠定基石。


產(chǎn)品與服務
聯(lián)系站長
關于我們