元象XVERSE公司宣布開源其百億參數的高性能通用大模型XVERSE-13B,可免費商用。
據介紹,XVERSE-13B 是由深圳元象科技自主研發的支持多語言的大語言模型(Large Language Model),基于它生成的服務包括了文本生成、自動化寫作、數據分析、知識問答等方面。
主要特點如下:
模型結構:XVERSE-13B 使用主流 Decoder-only 的標準 Transformer 網絡結構,支持8K 的上下文長度(Context Length),為同尺寸模型中最長,能滿足更長的多輪對話、知識問答與摘要等需求,模型應用場景更廣泛。
訓練數據:構建了1.4萬億 token 的高質量、多樣化的數據對模型進行充分訓練,包含中、英、俄、西等40多種語言,通過精細化設置不同類型數據的采樣比例,使得中英兩種語言表現優異,也能兼顧其他語言效果。
分詞:基于 BPE(Byte-Pair Encoding)算法,使用上百 GB 語料訓練了一個詞表大小為100,278的分詞器,能夠同時支持多語言,而無需額外擴展詞表。
訓練框架:經過對算子、通信、并行策略及調度等的優化,千卡集群上的峰值算力利用率達到58.5%,達到業界前列。


產品與服務
聯系站長
關于我們