OpenAI昨日(11 月 19 日)發(fā)布博文,宣布推出 GPT-5.1-Codex-Max 智能體編程模型,顯著提升了長遠(yuǎn)推理能力、效率和實時交互能力。此外該模型將取代 GPT-5.1-Codex,成為 Codex 集成界面上的默認(rèn)模型。
援引博文介紹,此次發(fā)布緊隨谷歌 Gemini 3 Pro 之后,但在多個關(guān)鍵編程基準(zhǔn)測試中,Codex-Max 展現(xiàn)出更強的實力。例如,在衡量解決實際軟件問題的 SWE-Bench Verified 測試中,Codex-Max 以 77.9% 的準(zhǔn)確率小幅領(lǐng)先于 Gemini 3 Pro 的 76.2%。Codex-Max 在 Terminal-Bench 2.0 測試中也領(lǐng)先,準(zhǔn)確率達(dá)到 58.1%,而 Gemini 的準(zhǔn)確率為 54.2%;在 LiveCodeBench Pro(一項競爭激烈的編碼 Elo 基準(zhǔn)測試)測試中,它的得分與 Gemini 的 2439 分持平。
GPT-5.1-Codex-Max 的一項重大架構(gòu)升級是引入了名為“壓縮”(Compaction)的機(jī)制。該機(jī)制允許模型在接近其上下文窗口限制時,智能地保留關(guān)鍵上下文信息并丟棄無關(guān)細(xì)節(jié),從而實現(xiàn)跨越數(shù)百萬 token 的連續(xù)工作而不會出現(xiàn)性能下降。
得益于此,該模型在內(nèi)部測試中已成功完成持續(xù)超過 24 小時的復(fù)雜任務(wù),如多步驟代碼重構(gòu)和自主調(diào)試。同時,這項技術(shù)還提升了約 30% 的 token 效率,有效降低了成本與延遲。
新模型目前已集成到 OpenAI 自家的多個 Codex 開發(fā)環(huán)境中,包括其官方命令行工具(Codex CLI)、內(nèi)部代碼審查工具以及各類交互式編程環(huán)境。
開發(fā)者可以通過這些工具體驗到模型強大的實時交互能力,例如在可視化界面中進(jìn)行強化學(xué)習(xí)訓(xùn)練或模擬光學(xué)定律。不過,GPT-5.1-Codex-Max 尚未通過公共 API 提供,但官方表示即將開放。普通用戶則需要訂閱 ChatGPT Plus、Pro 或企業(yè)版等付費計劃才能使用。
OpenAI 透露,其內(nèi)部 95% 的工程師每周都會使用 Codex,自采用以來,這些工程師平均多提交了約 70% 的拉取請求(Pull Requests),顯著提升了內(nèi)部開發(fā)速度。
盡管 Codex-Max 具備高度的自主性,OpenAI 仍強調(diào)它應(yīng)作為編碼“助手”而非人類的替代品。為保證透明度,模型會生成詳細(xì)的終端日志和測試引用,以便開發(fā)者審查和驗證其生成的所有代碼。此外,模型在默認(rèn)情況下運行于嚴(yán)格的沙盒環(huán)境中,并禁用了網(wǎng)絡(luò)訪問,以確保安全性。


產(chǎn)品與服務(wù)
聯(lián)系站長
關(guān)于我們