昨天,OpenAI CEO奧特曼發(fā)出了一份內(nèi)部備忘錄,宣布公司進(jìn)入“Code Red”(紅色警報(bào))緊急狀態(tài)。
表面上看,這是OpenAI針對(duì)谷歌、Anthropic這兩位強(qiáng)力競(jìng)爭(zhēng)對(duì)手的應(yīng)急響應(yīng)。
但更深層的問題是,OpenAI正在面臨一個(gè)整個(gè)行業(yè)都無法回避的技術(shù)困境。那就是訓(xùn)練成本飆升,模型規(guī)模不斷擴(kuò)大,但性能提升卻越來越有限。
根據(jù)斯坦福大學(xué)的《2025年AI指數(shù)報(bào)告》,2019年到2022年間,訓(xùn)練成本每增加10倍,模型在主流基準(zhǔn)測(cè)試上的性能平均能提升25%-35%。但到了2023年之后,同樣10倍的成本投入,性能提升就只剩下10%-15%。
更糟糕的是,2024年以來,即使訓(xùn)練成本再翻倍,性能提升往往不足5%,投入產(chǎn)出比正在斷崖式下跌。
各家頭部模型的表現(xiàn)開始趨同,仿佛集體撞上了某種看不見的天花板。
這引發(fā)了一個(gè)在AI學(xué)術(shù)界和產(chǎn)業(yè)界激烈爭(zhēng)論的問題:大語言模型,是否已經(jīng)走進(jìn)了死胡同?
01
首先從用戶數(shù)據(jù)來看,OpenAI的領(lǐng)先地位已經(jīng)開始動(dòng)搖。
谷歌的Gemini 3模型在基準(zhǔn)測(cè)試上超越了OpenAI,這使得Gemini的月活用戶飆升,谷歌第三季度財(cái)報(bào)披露,目前Gemini的月活已經(jīng)從7月的4.5億增長(zhǎng)到10月的6.5億。
與此同時(shí),Anthropic的Claude也在企業(yè)客戶中越來越受歡迎。根據(jù)OpenRouter的數(shù)據(jù),截至2025年11月末,Claude的周訪問量達(dá)0.41億人次,較六周前增長(zhǎng)17.1%。
但更要命的消息還在后面。
根據(jù)半導(dǎo)體行業(yè)分析公司SemiAnalysis的爆料,自2024年5月GPT-4o發(fā)布以來,OpenAI的頂尖研究人員就再也沒有成功完成過一次大規(guī)模的全面預(yù)訓(xùn)練。
這意味著GPT-5跟GPT-4o之間,其實(shí)沒有經(jīng)歷真正意義上的代際升級(jí),更像是在GPT-4o基礎(chǔ)上做的微調(diào)和優(yōu)化,而不是一個(gè)全新訓(xùn)練出來的模型。
SemiAnalysis還在分析中給OpenAI補(bǔ)了一刀:“預(yù)訓(xùn)練一個(gè)前沿模型,是整個(gè)AI研發(fā)中最困難、資源最密集的挑戰(zhàn)。而谷歌的TPU平臺(tái)已經(jīng)決定性地通過了這個(gè)測(cè)試,可OpenAI并沒有。”
預(yù)訓(xùn)練是訓(xùn)練大語言模型的第一步,也是最關(guān)鍵的一步。在這個(gè)階段,模型要在海量的文本數(shù)據(jù)上學(xué)習(xí)語言的基本規(guī)律,比如語法、語義、事實(shí)知識(shí)等等。
無法完成大規(guī)模預(yù)訓(xùn)練,就無法升級(jí)迭代到下一個(gè)時(shí)代的模型,這對(duì)于OpenAI這種必須保持技術(shù)領(lǐng)先的企業(yè)來說是致命的。
MMLU的跑分進(jìn)一步佐證了SemiAnalysis的觀點(diǎn)。其全稱為大規(guī)模多任務(wù)語言理解(Massive Multitask Language Understanding),是衡量大模型綜合知識(shí)與推理能力的核心權(quán)威基準(zhǔn)測(cè)試。
從結(jié)果來看,GPT-5的MMLU評(píng)分只比GPT-4提升了10%-20%。
要知道,Anthropic CEO 達(dá)里奧·阿莫迪(Dario Amodei)曾公開表示,2024-2025年期間的大模型,訓(xùn)練成本是10億到20億美元,是一年前大模型訓(xùn)練成本的10倍。而GPT-5的成本更是比GPT-4(約 6000萬-1億美元)高了約20-30倍。
面對(duì)如此的雙重困境,奧特曼不得不調(diào)整策略,將重心轉(zhuǎn)向優(yōu)化現(xiàn)有產(chǎn)品。
奧特曼在備忘錄中表示,公司需要改進(jìn)ChatGPT的個(gè)性化功能、提高速度和可靠性、擴(kuò)大其可回答的問題范圍。
為此,OpenAI決定推遲廣告、健康和購物AI代理、名為Pulse的個(gè)人助手等其他項(xiàng)目的開發(fā),鼓勵(lì)員工臨時(shí)調(diào)崗,每天召開專門會(huì)議討論ChatGPT的改進(jìn)。
在此之前,OpenAI曾于2025年10月拉響過“Code Orange”(橙色警報(bào))。
OpenAI內(nèi)部的警報(bào)分為三個(gè)級(jí)別:黃色、橙色、紅色。顏色越紅,就代表事態(tài)越嚴(yán)重。而拉響內(nèi)部警報(bào)的標(biāo)準(zhǔn),是根據(jù)OpenAI當(dāng)前的市場(chǎng)競(jìng)爭(zhēng)壓力和產(chǎn)品危機(jī)。
橙色警報(bào)對(duì)應(yīng)明確的競(jìng)爭(zhēng)威脅或產(chǎn)品危機(jī),核心業(yè)務(wù)已出現(xiàn) “被動(dòng)局面”,比如市場(chǎng)份額被蠶食、用戶流失。需要OpenAI “局部資源傾斜” 應(yīng)對(duì)。
當(dāng)時(shí)OpenAI的做法是成立 “應(yīng)急優(yōu)化小組”,由產(chǎn)品、技術(shù)、算法核心負(fù)責(zé)人牽頭,調(diào)配 50% 以上的研發(fā)資源聚焦核心產(chǎn)品。
02
但OpenAI不是唯一陷入瓶頸的公司,整個(gè)行業(yè)都在面臨同樣的困境。
從2024年底到2025年初,頂尖大模型的性能提升曲線出現(xiàn)了明顯的平緩。根據(jù)LMSYS Chatbot Arena的盲測(cè)數(shù)據(jù),2024年6月時(shí),排名第一和第十的模型之間Elo評(píng)分差距超過150分。
但到2025年11月,這個(gè)差距已經(jīng)收窄到不足50分。更值得注意的是,幾乎所有主流模型在關(guān)鍵基準(zhǔn)測(cè)試上的得分都開始集中在一個(gè)狹窄的區(qū)間內(nèi)。這種趨勢(shì)意味著,即使各家公司投入的資源差異巨大(從數(shù)千萬美元到數(shù)十億美元不等),但最終產(chǎn)出的模型性能卻越來越相似。
在2023年3月,OpenAI剛發(fā)布GPT-4時(shí),其在MMLU測(cè)試中的得分確實(shí)為86.4%。而當(dāng)時(shí)主流競(jìng)爭(zhēng)對(duì)手的成績(jī)大多集中在60%-75%區(qū)間,比如同期的Claude v1在該測(cè)試中得分僅為75.6%,LLaMA-65則只有 63.4%。
可是到了2025年9月的MMLU-Pro(MMLU的進(jìn)階版評(píng)測(cè)基準(zhǔn),評(píng)分標(biāo)準(zhǔn)更嚴(yán)格)中,所有的頭部模型都是85%到90%,幾乎沒有任何差別。
從更新的頻率來看,Meta的Llama模型從第二代到第三代間隔約9個(gè)月,而Llama 3到計(jì)劃推出的Llama 4間隔已超15個(gè)月;Anthropic從Claude 3到Claude 4的間隔也長(zhǎng)達(dá)11個(gè)月。
種種跡象都在表明,曾經(jīng)被奉為大語言模型黃金定律的Scaling Law,正在失效。
造成這一結(jié)果的原因,其實(shí)就來自于大模型本身。
大模型訓(xùn)練的核心任務(wù)是“預(yù)測(cè)下一個(gè)詞”。
通過在海量文本上反復(fù)訓(xùn)練這個(gè)任務(wù),模型逐漸學(xué)會(huì)了語法、常識(shí)、推理能力等。當(dāng)模型已經(jīng)足夠強(qiáng),明白語法和常識(shí)時(shí),語言本身的不確定性就成為了影響模型輸出結(jié)果的變量。
舉個(gè)例子:“他把蘋果放在桌子上,然后它就不見了。”這里的“它”是指蘋果還是桌子?從語法上講,兩種理解都說得通。要搞清楚“它”指什么,需要的不是更好的語法知識(shí),而是對(duì)現(xiàn)實(shí)世界的常識(shí)判斷。
但如果換一種說法:“他把手機(jī)放在桌子上,然后它就倒了。”這里的“它”可能是手機(jī),也可能是桌子。如果是廉價(jià)折疊桌,確實(shí)可能因?yàn)榉帕藗€(gè)手機(jī)就倒了;如果是手機(jī)殼打開了,手機(jī)本身也可能倒。沒有足夠的上下文,連人類也很難做出準(zhǔn)確判斷。
這種由語言本身的歧義和不確定性造成的誤差,在統(tǒng)計(jì)學(xué)上叫“不可約誤差”(Irreducible Error),或者“貝葉斯誤差率”(Bayes Error Rate)。
即使你有完美的算法、無限的數(shù)據(jù)和算力,這個(gè)誤差也無法消除,它是問題本身固有的特性。
人類語言充滿了這種不確定性。我們平時(shí)說話,很多信息靠語境、肢體語言、聲調(diào)、共同背景知識(shí)來傳遞。把這些都去掉,只留下純文本,信息損失巨大。
大語言模型訓(xùn)練的就是這些純文本,所以天生就會(huì)面臨不可約誤差的限制。
當(dāng)模型還比較弱時(shí),它會(huì)犯很多低級(jí)錯(cuò)誤,比如語法錯(cuò)誤、事實(shí)錯(cuò)誤、邏輯錯(cuò)誤。解決這些可以通過增加數(shù)據(jù)、增大模型、改進(jìn)算法來實(shí)現(xiàn)。但當(dāng)模型已經(jīng)足夠強(qiáng),不再犯低級(jí)錯(cuò)誤時(shí),剩下的錯(cuò)誤主要就是這種不可約的、由語言本身特性造成的誤差。
到這個(gè)階段,再怎么砸錢砸資源,提升也是有限的。
第二個(gè)問題是數(shù)據(jù)枯竭。到GPT-4的時(shí)候,OpenAI幾乎已經(jīng)把整個(gè)互聯(lián)網(wǎng)上的高質(zhì)量文本都學(xué)完了。各種百科、數(shù)字圖書館、GitHub代碼、Reddit討論、各種專業(yè)論文和文檔。
能用的高質(zhì)量數(shù)據(jù)基本都用完了。剩下的是大量低質(zhì)量?jī)?nèi)容,比如廣告軟文、垃圾帖子、重復(fù)內(nèi)容、機(jī)器生成的垃圾信息。
要解決數(shù)據(jù)不足,一些廠商開始用AI生成數(shù)據(jù)來訓(xùn)練AI。但這會(huì)導(dǎo)致一個(gè)嚴(yán)重問題,叫“模型崩潰”(Model Collapse)。簡(jiǎn)單說,如果一個(gè)模型只吃自己或其他模型產(chǎn)出的數(shù)據(jù),它的多樣性會(huì)下降,甚至?xí)糯笞陨淼腻e(cuò)誤和偏見,最終導(dǎo)致模型變得越來越笨,輸出越來越單調(diào)。
這個(gè)過程有點(diǎn)像生物學(xué)上的近親繁殖。在生物界,如果一個(gè)種群長(zhǎng)期近親繁殖,基因多樣性會(huì)逐漸喪失,遺傳缺陷會(huì)被放大,最終導(dǎo)致種群退化。模型崩潰也是同樣的道理。
2024年發(fā)表在Nature上的一篇論文《當(dāng) AI 模型在遞歸生成的數(shù)據(jù)上訓(xùn)練時(shí),會(huì)出現(xiàn)性能崩潰》(AI models collapse when trained on recursively generated data),就系統(tǒng)研究了這個(gè)問題。研究人員發(fā)現(xiàn),在早期模型崩潰階段,模型會(huì)首先丟失數(shù)據(jù)分布尾部的信息。到了后期,整個(gè)數(shù)據(jù)分布會(huì)收斂到一個(gè)非常狹窄的范圍,跟原始數(shù)據(jù)幾乎沒有相似之處。
研究人員做過實(shí)驗(yàn):用一個(gè)預(yù)訓(xùn)練好的語言模型生成一批文本,然后用這批文本訓(xùn)練新模型,再用新模型生成文本,再訓(xùn)練更新的模型……如此反復(fù)幾代后,模型的輸出變得越來越單調(diào)、重復(fù),原本數(shù)據(jù)中那些出現(xiàn)頻率較低但很重要的信息(比如專業(yè)領(lǐng)域知識(shí)、小眾但正確的觀點(diǎn))逐漸消失了。
每一代模型生成數(shù)據(jù)時(shí),都會(huì)傾向于生成那些在訓(xùn)練數(shù)據(jù)中最常見、最“安全”的內(nèi)容。那些出現(xiàn)頻率低的、邊緣的信息,在生成的數(shù)據(jù)中出現(xiàn)概率會(huì)更低。經(jīng)過幾代迭代,這些信息就徹底丟失了。
更麻煩的是,現(xiàn)在互聯(lián)網(wǎng)上已經(jīng)充斥著大量AI生成的內(nèi)容。ChatGPT發(fā)布后,網(wǎng)絡(luò)上的文章、社交媒體帖子、甚至學(xué)術(shù)論文,都開始出現(xiàn)越來越多AI生成痕跡。
如果未來模型通過爬取互聯(lián)網(wǎng)獲取訓(xùn)練數(shù)據(jù),不可避免地會(huì)把這些AI生成內(nèi)容也包含進(jìn)去。這意味著,模型崩潰不再只是實(shí)驗(yàn)室里的理論問題,而是整個(gè)AI行業(yè)都將面臨的實(shí)際威脅。
03
關(guān)于大語言模型是否進(jìn)入了死胡同,這個(gè)問題其實(shí)一直充滿爭(zhēng)議。
以AI教母李飛飛為代表的維新派認(rèn)為:大語言模型不是萬能的,它只是AI系統(tǒng)中的一個(gè)組件。要實(shí)現(xiàn)真正的人工智能,需要把不同類型的任務(wù)分配給不同類型的模型。
李飛飛曾直言不諱地說,AGI是一個(gè)營(yíng)銷術(shù)語,不是科學(xué)術(shù)語。現(xiàn)如今真正缺失的不是“通用智能”,而是“空間智能”,也就是理解和操作三維物理世界的能力。
她認(rèn)為,未來的AI系統(tǒng)可能是“世界模型”(World Model)。它的核心能力是理解三維空間、物理規(guī)律和因果關(guān)系。它不是通過學(xué)習(xí)文本理解世界,而是通過觀察視頻、圖像、傳感器數(shù)據(jù)來建立對(duì)物理世界的認(rèn)知。
世界模型使用嚴(yán)格的邏輯規(guī)則和數(shù)學(xué)證明技術(shù),而不是像現(xiàn)在的大語言模型一樣依賴統(tǒng)計(jì)模式。
谷歌DeepMind開發(fā)的AlphaGeometry就是這個(gè)方向的例子,它能夠解決奧林匹克競(jìng)賽級(jí)別的幾何問題,靠的不是語言模型,而是符號(hào)推理系統(tǒng)和神經(jīng)網(wǎng)絡(luò)的結(jié)合。
圖靈獎(jiǎng)得主、Meta前首席AI科學(xué)家楊立昆(Yann LeCun)對(duì)語言模型路徑的批評(píng)更加直接。他形容這條路徑是“給鸚鵡喂更大的芯片”。
在他看來,語言模型只是在學(xué)習(xí)統(tǒng)計(jì)規(guī)律,在做模式匹配,并沒有真正理解世界。要實(shí)現(xiàn)真正的智能,必須讓AI建立對(duì)物理世界的模型,理解物體、空間、時(shí)間、因果關(guān)系這些基本概念。
彼時(shí),大語言模型將會(huì)成為“翻譯官”。當(dāng)用戶用自然語言提出需求時(shí),大語言模型負(fù)責(zé)理解需求,把它翻譯成機(jī)器能處理的指令,分配給合適的像是世界模型這樣的子系統(tǒng)來執(zhí)行。
當(dāng)任務(wù)完成后,大語言模型再把結(jié)果翻譯成自然流暢的人類語言輸出給用戶。
OpenAI和Anthropic則是守舊派。
奧特曼認(rèn)為,只要把語言模型繼續(xù)放大,投入更多數(shù)據(jù)和算力,智能就會(huì)“自動(dòng)涌現(xiàn)”。
他相信,當(dāng)模型規(guī)模達(dá)到某個(gè)臨界點(diǎn)時(shí),會(huì)突然展現(xiàn)出質(zhì)的飛躍,獲得真正的理解能力和推理能力。這個(gè)觀點(diǎn)在業(yè)內(nèi)被稱為“scaling hypothesis”(規(guī)模假說)。
OpenAI聯(lián)合創(chuàng)始人兼首席科學(xué)家伊爾亞·蘇茲科維(Ilya Sutskever)的觀點(diǎn)是壓縮就是理解。
他坦言,“如果你能把全世界的數(shù)據(jù)無損地壓縮進(jìn)一個(gè)大語言模型的神經(jīng)網(wǎng)絡(luò),那么這個(gè)模型就在內(nèi)部構(gòu)建出了一個(gè)關(guān)于這個(gè)世界的真實(shí)模型。”
Anthropic的聯(lián)合創(chuàng)始人杰拉德·卡普蘭(Jared Kaplan)則認(rèn)為語言模型本身可能不是智能,但可以成為智能的基礎(chǔ)。他認(rèn)為通過改進(jìn)訓(xùn)練方法、增強(qiáng)安全性對(duì)齊、結(jié)合其他技術(shù),語言模型路徑仍然有潛力達(dá)到AGI。
MIT的認(rèn)知學(xué)家伊芙琳娜·費(fèi)多林柯(Evelina Fedorenko)以及多位MIT和伯克利的學(xué)者,在《Nature》期刊上發(fā)表文章,他們指出:語言不是思維,人類的思維是獨(dú)立于語言的。嬰兒在學(xué)會(huì)說話之前就已經(jīng)有了對(duì)物理世界的理解,對(duì)因果關(guān)系的認(rèn)知。盲人和聾人雖然缺失某些感官通道,但思維能力并不受影響。
語言主要是交流工具而非思維工具,語言模型也就不可能是真正的人工智能。


產(chǎn)品與服務(wù)
聯(lián)系站長(zhǎng)
關(guān)于我們