在全球人工智能競爭日益激烈的背景下,上海交通大學與深勢科技團隊聯手,成功在被稱為 “人類最后的考試”(HLE)中取得了32.1分的驚人成績,首次突破30分大關。這一測試集以其超高難度而聞名,曾經沒有模型得分能超過10分,甚至在最近,最高得分也僅有26.9分,由 Kimi-Research 和 Gemini Deep Research 并列創造。
這項研究推出了名為 X-Master 的工具增強型推理智能體,以及多智能體工作流系統 X-Masters。這套方案不僅在技術上表現出色,團隊還將其開源,進一步推動 AI 領域的合作與發展。

X-Master 的核心理念在于模擬人類研究者解決問題的動態過程,能夠在內部推理與外部工具之間無縫切換。當遇到無法解決的問題時,X-Master 會將行動計劃編寫成代碼,通過各種工具(如 NumPy 和 SciPy)執行這些代碼,并將結果整合回智能體的知識體系中。這一過程形成了一個高效的反饋循環,使得智能體不斷優化推理過程。
X-Masters 的設計則更為復雜,采用分散 - 堆疊式的智能體工作流,能夠提升推理的廣度和深度。在分散階段,多個求解器并行工作,生成不同的解決方案,同時由批評者智能體對方案進行評估與改進。接下來,重寫器智能體將所有輸出匯總成更優方案,最終由選擇器智能體選出最佳答案。
在這項測試中,X-Masters 在生物學 / 醫學類別的表現也格外突出,超越了現有的智能體系統,顯示出其在復雜問題上的強大能力。
“人類最后的考試” 由 AI 安全中心與 Scale AI 于今年初發起,旨在評估 AI 系統的智能水平,題目來自500多家機構的1000多名學者,難度相當高。


產品與服務
聯系站長
關于我們