開源社區(qū)是 AI 創(chuàng)新的核心引擎。通過全球開發(fā)者的智慧碰撞與代碼共享,我們才能快速突破技術(shù)壁壘,共同邁向 AGI 的未來。
近日,百度百舸與 SGLang 社區(qū)深度合作,將一套經(jīng)過生產(chǎn)系統(tǒng)嚴苛驗證的 MTP 高性能推理代碼正式開源。
這套代碼不僅性能卓越,更在百度內(nèi)部大規(guī)模服務(wù)中證明了出色的穩(wěn)定性與可靠性。SGLang 社區(qū)實測表明,該代碼為最新的 DeepSeek-V3.2 模型帶來了超過 2 倍解碼吞吐量的顯著性能提升,讓社區(qū)能夠直接部署生產(chǎn)級別的優(yōu)化方案。


代碼地址:https://github.com/sgl-project/sglang/pull/11652
本次開源的核心,是一個為 DeepSeek-V3.2 全新DSA 架構(gòu)量身定制的MTP 實現(xiàn)。DSA架構(gòu)的采用,使得適用于 DeepSeek 老版本的 MTP 代碼無法復用于 DeepSeek-V3.2。同時,這一架構(gòu)升級為推理優(yōu)化帶來了新的挑戰(zhàn),同時也創(chuàng)造了性能突破的新機遇。
MTP 通過讓模型在單個前向傳播中一次性預(yù)測多個未來 token,然后統(tǒng)一驗證的方式,顯著減少了生成完整序列所需的總步驟數(shù)。其核心價值在于通過改變傳統(tǒng)解碼模式來突破效率瓶頸:
●傳統(tǒng)方式(自回歸解碼):模型每次只生成一個 token,生成下一個時必須等待上一個完成。如同逐字輸入,過程穩(wěn)定但速度存在瓶頸。
●MTP 方式(批量生成,集中驗證):模型會一次性智能地推算出多個后續(xù) token 作為候選,然后統(tǒng)一進行驗證。這好比從逐字輸入升級為智能聯(lián)想輸入,一次性能提供多個候選詞句,從而大幅減少生成輪次,突破序列化瓶頸。
百度智能云的核心工作,正是為全新的 DSA 架構(gòu)實現(xiàn)了這套高效的 MTP 方案。這一生產(chǎn)級的代碼貢獻,使得 SGLang 社區(qū)開發(fā)者無需重復底層探索與試錯,能夠直接獲得性能倍增且穩(wěn)定可靠的推理能力。
未來,百度百舸 AI 計算平臺的研發(fā)團隊,將持續(xù)向 SGLang 社區(qū)開源更多生產(chǎn)級別的核心代碼,與全球開發(fā)者攜手,加速大模型技術(shù)的創(chuàng)新與普惠。


產(chǎn)品與服務(wù)
聯(lián)系站長
關(guān)于我們