在最新的研究中,Mistral AI 的研究團隊推出了一款名為 Mixtral8x7B 的語言模型,該模型基于新的 Sparse Mixture of Experts(SMoE)模型,具有開放權重。該模型被授權使用 Apache2.0許可證,并作為專家混合的稀疏網(wǎng)絡僅用作解碼器模型。
研究團隊透露,Mixtral 的前饋塊是從八個不同的參數(shù)組中選擇的。每個層和令牌都有兩個參數(shù)組,稱為專家,由路由網(wǎng)絡動態(tài)選擇以處理令牌并將它們的結果以加法方式組合。由于每個令牌只使用總參數(shù)的一部分,這種方法有效地增加了模型的參數(shù)空間,同時保持成本和延遲的控制。
Mistral 通過使用32k token上下文大小的多語言數(shù)據(jù)進行預訓練,表現(xiàn)出色,與Llama270B和GPT-3.5在多個基準測試中相當或更好。其主要優(yōu)勢之一是有效利用參數(shù),允許在小批量大小時更快的推理時間,并在大批量大小時提高吞吐量。
Mixtral 在包括多語言理解、代碼生成和數(shù)學等測試中,明顯優(yōu)于Llama270B。實驗證明,Mixtral能夠有效地從其32k令牌的上下文窗口中恢復數(shù)據(jù),無論數(shù)據(jù)在序列中的長度和位置如何。
為確保公正準確的評估,研究團隊使用了他們的評估流程重新運行了基準測試,詳細比較了Mixtral和Llama模型。評估涵蓋了數(shù)學、代碼、閱讀理解、常識思維、世界知識和流行的匯總發(fā)現(xiàn)等各種問題。
在0-shot環(huán)境中,對常識推理任務進行了評估,包括ARC-Easy、ARC-Challenge、Hellaswag、Winogrande、PIQA、SIQA、OpenbookQA和CommonsenseQA。在5-shot格式中,對世界知識任務進行了評估,包括TriviaQA和NaturalQuestions。閱讀理解任務BoolQ和QuAC在0-shot環(huán)境中進行評估。數(shù)學任務包括GSM8K和MATH,而與代碼相關的任務包括Humaneval和MBPP。研究還包括了對AGI Eval、BBH和MMLU的流行的綜合發(fā)現(xiàn)。
研究還展示了 Mixtral8x7B – Instruct,這是一個專為指令優(yōu)化的對話模型。在過程中使用了直接偏好優(yōu)化和監(jiān)督微調(diào)。在人工評估基準中,Mixtral – Instruct在與GPT-3.5Turbo、Claude-2.1、Gemini Pro和Llama270B – 聊天模型的比較中表現(xiàn)更好。類似BBQ和BOLD的基準顯示出更少的偏見和更平衡的情感配置。
為促進廣泛的可訪問性和各種應用,Mixtral8x7B和Mixtral8x7B – Instruct都已獲得Apache2.0許可證,允許商業(yè)和學術用途。通過添加Megablocks CUDA內(nèi)核以實現(xiàn)有效的推理,團隊還修改了vLLM項目。


產(chǎn)品與服務
聯(lián)系站長
關于我們