Latvian 語言技術公司 Tilde 于2025年9月3日發布了 TildeOpen LLM,這是一個開源的基礎大語言模型(LLM),旨在支持歐洲語言,特別是那些較少被代表的國家和地區語言。這一舉措標志著歐盟在語言公平和數字主權方面邁出了重要的一步。

TildeOpen LLM 是一個擁有300億參數的稠密解碼器模型,采用了 CC-BY-4.0的寬松許可證,能夠支持從拉脫維亞語、立陶宛語到烏克蘭語、土耳其語等多種語言。該模型的訓練是在歐洲的超級計算機 LUMI(芬蘭)和 JUPITER 上進行的,使用了歐盟委員會的大型人工智能大獎挑戰賽所提供的200萬 GPU 小時的計算資源。
在技術細節方面,TildeOpen LLM 通過受 EleutherAI 啟發的 GPT-NeoX 腳本進行訓練,共進行了45萬次更新,使用了約2萬億個令牌。其訓練過程包含三階段采樣:首先在語言間均勻分布,其次是對高數據量語言的自然分布進行增強,最后再進行均勻的掃查以確保平衡。模型的超參數包括60層、嵌入維度6144、48個注意力頭、8192-token 的上下文窗口,以及使用 SwiGLU 激活、RoPE 位置編碼和 RMSNorm 層規范化。
在語言公平和數據主權方面,傳統的主流模型往往側重于英語和其他主要語言,導致在處理波羅的海、斯拉夫及其他較小的歐洲語言時表現不佳,常常出現語法錯誤和奇怪的措辭。而 TildeOpen 通過引入 “公平的標記器”,使得不同語言的文本以相似方式進行表示,從而減少標記數量,提高較少代表語言的推理效率。此外,組織可以選擇在本地數據中心或符合歐盟要求的安全云中自我托管,確保遵循 GDPR 及其他數據保護法規,從而解決了與美國或亞洲托管模型相關的主權問題。
TildeOpen 作為基礎模型,預計會推出更多專門化版本,例如經過指令調優的翻譯模型,這將進一步增強其功能。拉脫維亞通過 Tilde 的努力,期望在全球科技領域占據一席之地,同時致力于保護語言多樣性。


產品與服務
聯系站長
關于我們