沉默了兩個(gè)月,DeepSeek出手就是王炸。
在端午節(jié)來(lái)臨前夕,DeepSeek悄悄完成了一次小版本升級(jí),當(dāng)前版本為DeepSeek-R1-0528。
迄今為止,DeepSeek最震動(dòng)世界的動(dòng)作還是1月發(fā)布R1。而之后DeepSeek的熱度就開(kāi)始下降,使用率也有所回落,并且引發(fā)了一些質(zhì)疑。
今年3月,DeepSeek放出了 DeepSeek-V3-0324 模型。時(shí)隔兩月,DeepSeek再次進(jìn)行模型更新。
我們不禁好奇,這次更新又會(huì)給我們帶來(lái)怎樣的驚喜?
一、四大實(shí)用升級(jí),普通人也用得到
根據(jù)DeepSeek官方公告,DeepSeek-R1-0528使用2024年12月所發(fā)布的DeepSeek V3 Base模型作為基座,但在后訓(xùn)練過(guò)程中投入了更多算力,顯著提升模型的思維深度與推理能力。
這次更新,DeepSeek主要升級(jí)了幾個(gè)十分實(shí)用的功能。
第一,DeepSeek的思考能力深化。
根據(jù)官方介紹,更新后的 R1 模型在數(shù)學(xué)、編程與通用邏輯等多個(gè)基準(zhǔn)測(cè)評(píng)中取得了當(dāng)前國(guó)內(nèi)所有模型中首屈一指的優(yōu)異成績(jī),并且在整體表現(xiàn)上已接近其他國(guó)際頂尖模型,如 o3 與 Gemini-2.5-Pro。
最左邊那欄是測(cè)試集,可以看到DeepSeek-R1-0528 在各項(xiàng)評(píng)測(cè)集上均取得了優(yōu)異表現(xiàn)。
并且,相較于舊版 R1,新版模型在復(fù)雜推理任務(wù)中的表現(xiàn)有了顯著提升。例如在 AIME 2025 測(cè)試中,新版模型準(zhǔn)確率由舊版的 70% 提升至 87.5%。
舉個(gè)例子,DeepSeek-R1-0528現(xiàn)在也能做對(duì)數(shù)字新難題“9.9-9.11=?”了。
要知道,這種看似簡(jiǎn)單的數(shù)學(xué)題能難倒o3、Gemini 2.5 pro、Claude 4等一眾頂流大模型。
另外,這次更新中,上下文長(zhǎng)度擴(kuò)展至164K tokens,支持單任務(wù)最長(zhǎng)60分鐘的深度思考,這意味著處理復(fù)雜任務(wù)的能力提升了。
DeepSeek表示,DeepSeek-R1-0528的思維鏈對(duì)于學(xué)術(shù)界推理模型的研究和工業(yè)界針對(duì)小模型的開(kāi)發(fā)都將具有重要意義。
第二,新版 DeepSeek R1 針對(duì)“幻覺(jué)”問(wèn)題進(jìn)行了優(yōu)化。
“AI幻覺(jué)”(AI Hallucination)這一現(xiàn)象,表現(xiàn)為模型輸出與輸入無(wú)關(guān)、違背事實(shí)或邏輯的內(nèi)容,例如虛構(gòu)事實(shí)、編造引用、錯(cuò)誤數(shù)據(jù)等。
在一定測(cè)試樣本中,AI輸出包含幻覺(jué)內(nèi)容的比例就是幻覺(jué)率。
相信不少人在網(wǎng)上都看過(guò)這樣的吐槽:本來(lái)想要借助DeepSeek寫(xiě)文章,結(jié)果發(fā)現(xiàn)它給出的參考文獻(xiàn)根本不存在!
這就是AI幻覺(jué)。
AI幻覺(jué)常見(jiàn)表現(xiàn)就是捏造不存在的研究論文或作者,或是提供錯(cuò)誤的歷史事件、日期或科學(xué)結(jié)論,以及生成與上下文無(wú)關(guān)的矛盾回答。
原因有三方面:訓(xùn)練數(shù)據(jù)噪聲或偏差;模型過(guò)度依賴統(tǒng)計(jì)模式而非真實(shí)理解;提示模糊或引導(dǎo)不當(dāng)。
總而言之,幻覺(jué)率是評(píng)估AI可靠性的重要指標(biāo)。
而舊版相比,更新后的模型在改寫(xiě)潤(rùn)色、總結(jié)摘要、閱讀理解等場(chǎng)景中,幻覺(jué)率降低了 45~50% 左右,能夠有效地提供更為準(zhǔn)確、可靠的結(jié)果。
不得不說(shuō),這是很實(shí)用的一大進(jìn)步。
第三,新版 DeepSeek R1在創(chuàng)意寫(xiě)作、代碼生角色扮演等功能上有了很大的優(yōu)化。
舊版 R1 的基礎(chǔ)上,更新后的 R1 模型針對(duì)議論文、小說(shuō)、散文等文體進(jìn)行了進(jìn)一步優(yōu)化,能夠輸出篇幅更長(zhǎng)、結(jié)構(gòu)內(nèi)容更完整的長(zhǎng)篇作品,同時(shí)呈現(xiàn)出更加貼近人類(lèi)偏好的寫(xiě)作風(fēng)格。
而在編程測(cè)評(píng)中,R1-0528與OpenAI的o3-high版本表現(xiàn)接近,部分任務(wù)甚至超越Claude 4 Sonnet等頂尖模型。
例如,生成帶有動(dòng)畫(huà)效果的天氣卡片代碼時(shí),R1的設(shè)計(jì)細(xì)節(jié)和交互動(dòng)畫(huà)完成度優(yōu)于Claude。
第四,DeepSeek-R1-0528 支持工具調(diào)用(不支持在 thinking 中進(jìn)行工具調(diào)用)。
根據(jù)官方介紹,當(dāng)前模型 Tau-Bench 測(cè)評(píng)成績(jī)?yōu)?airline 53.5% / retail 63.9%,與 OpenAI o1-high 相當(dāng),但與 o3-High 以及 Claude 4 Sonnet 仍有差距。
總結(jié)一下,根據(jù)中國(guó)經(jīng)濟(jì)網(wǎng)報(bào)道,升級(jí)主要有四個(gè)方面。
首先,響應(yīng)質(zhì)量?jī)?yōu)化。
對(duì)復(fù)雜推理、多步驟計(jì)算更準(zhǔn)確;長(zhǎng)文理解與生成更連貫、邏輯更清晰;數(shù)學(xué)、編程等專(zhuān)業(yè)性輸出更可靠。
其次,響應(yīng)速度小幅提升。
在網(wǎng)頁(yè)端、App、API 接口中響應(yīng)更敏捷,尤其在處理超長(zhǎng)文本輸入時(shí),延遲有所降低(約提升 10%~20%)。
再次,對(duì)話穩(wěn)定性增強(qiáng)。
上下文記憶更穩(wěn)定,尤其在超長(zhǎng)對(duì)話中,并且減少偶爾“遺忘設(shè)定”或“跑偏”的情況。
最后,API 和接口兼容性保持穩(wěn)定。
如公告所說(shuō):API 調(diào)用方式、參數(shù)、返回結(jié)構(gòu)完全不變,用戶無(wú)需調(diào)整現(xiàn)有集成,即可無(wú)縫使用新版本。
換句話說(shuō),日常生活中,現(xiàn)在的DeepSeek-R1-0528 已經(jīng)足夠應(yīng)對(duì)大多數(shù)問(wèn)題,而在學(xué)習(xí)和工作中,DeepSeek-R1-0528的可靠性大大提升、使用體驗(yàn)也變好了。
二、強(qiáng)如DeepSeek,叫板國(guó)外AI大模型
在現(xiàn)在這個(gè)人人都在卷AI的時(shí)候,DeepSeek還保留著獨(dú)特的優(yōu)勢(shì)。
首先,在開(kāi)源策略上,更新后的DeepSeek-R1依然選擇開(kāi)源。
DeepSeek采用MIT協(xié)議開(kāi)源,允許免費(fèi)商用,甚至不用公開(kāi)自己的修改代碼,極大降低了AI應(yīng)用門(mén)檻。
其次,DeepSeek成本優(yōu)勢(shì)顯著,開(kāi)發(fā)者狂喜。
其API價(jià)格僅為OpenAI o1的1/50(輸入token)至1/27(輸出token),也就是同樣處理字?jǐn)?shù)的文本,用R1需要的成本比用OpenAI低很多,
因此,在性價(jià)比方面,DeepSeek稱(chēng)第二,沒(méi)人敢稱(chēng)第一。
最后,DeepSeek與國(guó)內(nèi)應(yīng)用市場(chǎng)的適配度很高。
目前DeepSeek已經(jīng)接入許多應(yīng)用,例如華為小藝、騰訊元寶等,有著廣泛的用戶基礎(chǔ)。
并且國(guó)產(chǎn)硬件,如華為昇騰910B芯片已完成適配,支持本地化部署,徹底擺脫對(duì)英偉達(dá)的依賴。
然而,DeepSeek還有許多可以優(yōu)化的空間。
一方面,測(cè)評(píng)顯示,R1在編程能力上與o3-high接近,數(shù)學(xué)推理優(yōu)于Gemini 2.5 Pro,但工具調(diào)用能力仍存在差距。
另一方面,暫不支持圖片、語(yǔ)音等多模態(tài)輸入,在日常使用中有局限性。
另外,在創(chuàng)意寫(xiě)作、多輪對(duì)話等場(chǎng)景,R1和頂級(jí)模型仍有差距。盡管幻覺(jué)率降低,模型在長(zhǎng)文本對(duì)話中仍可能出現(xiàn)邏輯錯(cuò)誤,并且部分用戶反饋服務(wù)響應(yīng)存在延遲,“服務(wù)器繁忙,請(qǐng)稍后重試”恐怕也是人們對(duì)DeepSeek的重要印象之一。
三、萬(wàn)眾期待的R2何時(shí)到來(lái)
迄今為止,DeepSeek最震動(dòng)世界的動(dòng)作還是1月發(fā)布R1。
今年3月,DeepSeek放出了 DeepSeek-V3-0324 模型,主要優(yōu)化了代碼方面的功能。該模型全面超越 Claude-3.7-Sonnet,在數(shù)學(xué)、代碼類(lèi)相關(guān)評(píng)測(cè)集上超過(guò) GPT-4.5。
而當(dāng)前,市場(chǎng)最關(guān)心的依然是R2模型發(fā)布。
4月初,DeepSeek聯(lián)手清華大學(xué)發(fā)布一篇論文,提出一種名為自我原則點(diǎn)評(píng)調(diào)優(yōu)(SPCT)的新學(xué)習(xí)方。同時(shí),研究者引入了元獎(jiǎng)勵(lì)模型(meta RM),進(jìn)一步提升推理擴(kuò)展性能。
上述論文引發(fā)了DeepSeek的R2是否很快面世的猜測(cè)。
而這次版本升級(jí),再次激起了人們對(duì)R2的期待。
有人認(rèn)為,這次的小版本升級(jí)可能意味著,R2還遠(yuǎn)未準(zhǔn)備好推出。
也有人認(rèn)為,這次優(yōu)化這么多功能都只是一次“小版本升級(jí)”,那么R2如果出來(lái),其影響力想必不會(huì)輸給R1。
DeepSeek-R1的升級(jí)像一場(chǎng)靜水深流的變革——它沒(méi)有渲染“顛覆世界”的野心,卻用更長(zhǎng)的思考時(shí)間、更低的犯錯(cuò)率、更貼近普通人的成本,悄悄改寫(xiě)了“強(qiáng)者恒強(qiáng)”的AI敘事。
這一次,我們看到的不是參數(shù)競(jìng)賽的喧囂,也不是資本游戲的狂歡,而是一個(gè)樸素的真相:真正的進(jìn)步,往往藏在“夠用就好”的克制里。
技術(shù)的光芒,本就該照進(jìn)這些具體而微的生活褶皺里。


產(chǎn)品與服務(wù)
聯(lián)系站長(zhǎng)
關(guān)于我們