DeepSeek今日正式發(fā)布NSA(Native Sparse Attention),這是一種硬件對齊且原生可訓(xùn)練的稀疏注意力機(jī)制,專為超快速長上下文訓(xùn)練與推理設(shè)計。NSA的核心組件包括動態(tài)分層稀疏策略、粗粒度token壓縮和細(xì)粒度token選擇,旨在優(yōu)化現(xiàn)代硬件性能。
官方表示,NSA在加速推理的同時,能夠顯著降低預(yù)訓(xùn)練成本,且不會犧牲模型性能。在通用基準(zhǔn)測試、長上下文任務(wù)以及基于指令的推理中,NSA的表現(xiàn)與全注意力模型相當(dāng)甚至更優(yōu)。這一技術(shù)的推出,為大規(guī)模語言模型的高效訓(xùn)練和部署提供了新的解決方案。


產(chǎn)品與服務(wù)
聯(lián)系站長
關(guān)于我們