国产精品一区视频,日本在线观看中文字幕,91精品国产自产在线观看永久

　　開源社區(qū)是 AI 創(chuàng)新的核心引擎。通過全球開發(fā)者的智慧碰撞與代碼共享，我們才能快速突破技術(shù)壁壘，共同邁向 AGI 的未來。

　　近日，百度百舸與 SGLang 社區(qū)深度合作，將一套經(jīng)過生產(chǎn)系統(tǒng)嚴苛驗證的 MTP 高性能推理代碼正式開源。

　　這套代碼不僅性能卓越，更在百度內(nèi)部大規(guī)模服務(wù)中證明了出色的穩(wěn)定性與可靠性。SGLang 社區(qū)實測表明，該代碼為最新的 DeepSeek-V3.2 模型帶來了超過 2 倍解碼吞吐量的顯著性能提升，讓社區(qū)能夠直接部署生產(chǎn)級別的優(yōu)化方案。

　　代碼地址：https://github.com/sgl-project/sglang/pull/11652

　　本次開源的核心，是一個為 DeepSeek-V3.2 全新DSA 架構(gòu)量身定制的MTP 實現(xiàn)。DSA架構(gòu)的采用，使得適用于 DeepSeek 老版本的 MTP 代碼無法復用于 DeepSeek-V3.2。同時，這一架構(gòu)升級為推理優(yōu)化帶來了新的挑戰(zhàn)，同時也創(chuàng)造了性能突破的新機遇。

　　MTP 通過讓模型在單個前向傳播中一次性預(yù)測多個未來 token，然后統(tǒng)一驗證的方式，顯著減少了生成完整序列所需的總步驟數(shù)。其核心價值在于通過改變傳統(tǒng)解碼模式來突破效率瓶頸：

　　●傳統(tǒng)方式(自回歸解碼)：模型每次只生成一個 token，生成下一個時必須等待上一個完成。如同逐字輸入，過程穩(wěn)定但速度存在瓶頸。

　　●MTP 方式(批量生成，集中驗證)：模型會一次性智能地推算出多個后續(xù) token 作為候選，然后統(tǒng)一進行驗證。這好比從逐字輸入升級為智能聯(lián)想輸入，一次性能提供多個候選詞句，從而大幅減少生成輪次，突破序列化瓶頸。

　　百度智能云的核心工作，正是為全新的 DSA 架構(gòu)實現(xiàn)了這套高效的 MTP 方案。這一生產(chǎn)級的代碼貢獻，使得 SGLang 社區(qū)開發(fā)者無需重復底層探索與試錯，能夠直接獲得性能倍增且穩(wěn)定可靠的推理能力。

　　未來，百度百舸 AI 計算平臺的研發(fā)團隊，將持續(xù)向 SGLang 社區(qū)開源更多生產(chǎn)級別的核心代碼，與全球開發(fā)者攜手，加速大模型技術(shù)的創(chuàng)新與普惠。

百度百舸 X SGLang 社區(qū) | 開源生產(chǎn)級 MTP 代碼，助力 DeepSeek-V3.2 推理服務(wù) 2 倍以上吞吐提升

延展資訊

最新新聞

熱門新聞