近日,隨著高考的落幕,一場別樣的“高考”也在各大AI大模型之間展開。此次測試邀請了多家知名科技公司的大模型,參與2025年數學新課標Ⅰ卷中的14道客觀題測試,以此檢驗它們在邏輯推理和數學能力上的表現。測試題目包括8道單選題、3道多選題和3道填空題,滿分73分,測試過程嚴格遵循高考判分原則。
測試結果顯示,字節跳動的豆包和騰訊的元寶(T1)以68分的總成績并列第一,僅在第6道單選題上失分。深度求索的DeepSeek和阿里的通義緊隨其后,分別獲得63分和62分。而百度的文心X1Turbo因在多選題和填空題上頻繁失誤,僅獲得51分。引人注目的是,OpenAI的o3在此次測試中表現不佳,僅獲得34分,正確率僅為47%,遠低于其他模型。

在單選題部分,豆包、通義、元寶和文心X1Turbo表現相當,均獲得35分。DeepSeek因圖片識別問題在兩道單選題上失分,而o3則在多道單選題上出現錯誤,甚至在“送分題”上翻車。多選題部分,豆包、DeepSeek和元寶三道題全部答對,展現出穩定的發揮。通義雖然速度快,但因步驟分析簡略導致在一道題上失誤。文心X1Turbo在多選題上表現不佳,兩道題答錯,一道未響應。o3則因不適應多選題規則,一道題都沒全對。
填空題部分,豆包、DeepSeek、通義和元寶斬獲滿分,而文心X1Turbo因最后一步畫蛇添足而失分。盡管如此,與去年相比,今年大模型的數學推理能力有了顯著提升。去年,大模型在高考數學題上的表現普遍不佳,甚至出現基礎計算錯誤。而今年,除o3外,其他五款模型均突破及格線,豆包和元寶更是保持了93%的正確率。
此外,大模型在反思能力和推理步驟上也展現出進步。今年,大模型在遇到問題時不再固執己見,而是會推倒重來,進行驗證。同時,除了通義外,其他大模型都能系統性地展示完整的推理鏈路,幫助用戶深入理解問題本質。然而,測試也暴露出大模型的一些問題,如計算細節錯誤、公式圖形處理能力不足、對題目條件敏感度不夠等。
針對此次測試,專家表示,大模型在數學推理能力上的提升是顯而易見的,但仍需在細節處理、圖形理解和條件敏感度等方面加強。隨著技術的不斷進化,相信大模型在未來能夠彌補這些“偏科”的毛病,為更多領域提供強大的支持。網友們也對此次測試表示關注,紛紛留言討論各大模型的表現,并對未來大模型的發展充滿期待。


產品與服務
聯系站長
關于我們