AI21Labs 近日宣布推出其最新的開源小型語言模型 ——Jamba Reasoning3B。這款被稱為 “迷你語言模型” 的系統(tǒng)專為在設備上進行人工智能計算而設計。Jamba Reasoning3B 是該公司在特拉維夫開發(fā)的 Jamba 系列模型的最新成員,并采用 Apache2.0許可證發(fā)布。
與大多數(shù)市場上流行的大型語言模型(LLM)不同,Jamba Reasoning3B 建立在 AI21自有的混合狀態(tài)空間模型(SSM)- 變換器架構之上。狀態(tài)空間模型是一種用于序列建模的深度學習算法,相比傳統(tǒng)變換器在某些任務上更加高效。這類模型通過當前狀態(tài)預測下一個狀態(tài)。Mamba 是一種基于 SSM 的神經網絡架構,構成了 Jamba 架構的一部分。
這款迷你語言模型的上下文窗口長度達到了256,000個標記,最多可以處理1,000,000個標記,具備與 Anthropic Claude、Google Gemini 和 Meta Llama 等大型語言模型相似的能力,但卻可以在 iPhone、Android 設備、Mac 和 PC 等小型設備上運行。
Futurum Group 的分析師 Brad Shimmin 表示,他一直是狀態(tài)空間模型的支持者,認為這一理念在行業(yè)內已有相當長的歷史,但直到現(xiàn)在才有切實可行的實現(xiàn)方式。他指出,隨著技術的演進,狀態(tài)空間模型的使用變得更加可行,因為其擴展性強且速度快。
SSM 類型模型使用繩索縮放技術來擴展模型的注意機制,從而有效優(yōu)先處理任務,同時所需的計算能力比大型語言模型少。雖然 AI21是一家相對較小的生成 AI 公司,但由于其獲得了 Google 和 AI 芯片巨頭 Nvidia 的支持,并自2017年成立以來融資超過6億美元,因此它可以通過建立生態(tài)系統(tǒng)來從開放源代碼模型 Jamba Reasoning3B 中獲利。
在發(fā)布會上,AI21展示了 Jamba 模型在廣泛使用的基準測試系統(tǒng)如 IFBench、MMLU-Pro 和 Humanity's Last Exam 上的表現(xiàn),證明其超越了包括阿里巴巴的 Qwen3.4B、谷歌的 Gemma3.4B、Meta 的 Llama3.23B、IBM 的 Granite4.0Micro 和微軟的 Phi-4Mini 等多個大型開源 LLM。
Shimmin 認為,這款迷你語言模型在企業(yè)市場中有廣闊的前景,因其支持檢索增強生成技術,企業(yè)能夠根據自身需求進行定制,同時確保數(shù)據的安全性。他提到,一個潛在的應用領域是客戶服務中心,通過其推理能力來處理客戶投訴,判斷問題是否需要升級到人工或其他模型。


產品與服務
聯(lián)系站長
關于我們