開源大模型領域迎來新突破。“問小白”正式發布其第四代開源模型 XBai o4,該模型在復雜推理能力上表現卓越,其 Medium 模式已全面超越 OpenAI o3-mini,并在部分基準測試中優于 Anthropic Claude Opus。
XBai o4引入了創新的“反思型生成范式”,通過結合 Long-CoT 強化學習和過程評分學習,實現了深度推理和高效推理鏈路篩選,同時顯著降低了推理成本。

技術突破:獨創“反思型生成范式”
XBai o4的核心創新在于其獨有的“反思型生成范式”(reflective generative form)。這一范式將 Long-CoT 強化學習與過程評分學習(Process Reward Learning)相結合,使得單個模型能夠同時完成兩個關鍵任務:
深度推理: 像人類一樣進行多步驟的復雜思考。
高質量推理鏈路篩選: 能夠評估和選擇最優的推理路徑。
更值得關注的是,XBai o4通過共享過程評分模型(PRMs)和策略模型的主干網絡,將 過程評分的推理耗時降低了99%。這一優化大幅提升了模型的運行效率,為實際應用提供了堅實基礎。
性能卓越:多基準測試領先
XBai o4模型提供了三種模式(low、medium、high),以適應不同復雜度的任務需求。在多項關鍵基準測試中,其強大性能得到了充分驗證:
在 Medium 模式下,XBai o4全面超越了 OpenAI 的 o3-mini 模型。
在部分基準測試中,其表現甚至優于 Anthropic 的 Claude Opus。
該模型在 AIME24、AIME25、LiveCodeBench v5、C-EVAL 等多個測試中均展現出卓越的推理能力。
“問小白”已在 GitHub 上開源了相關的訓練和評估代碼,這不僅為 AI 研究社區提供了寶貴的資源,也預示著開源大模型在復雜推理領域的競爭力正在迅速增強。


產品與服務
聯系站長
關于我們