智源研究院提出了首個用于自然語言理解任務的1bit 輕量化預訓練模型 BiPFT。與傳統的 FP32模型相比,BiPFT 模型在推理階段顯著減少了操作數量和內存使用。該模型在 GLUE 標準測試集上的平均性能超過了15.4%。
與以往的1bit 量化方法不同,BiPFT 直接在預訓練階段使用大量的文本數據對模型進行1bit 預訓練,而不是在下游任務上進行量化。這種方法使得模型具備了更好的獨立學習能力和超參數魯棒性。

另外,智源團隊還創新地采用了一種數據驅動的1bit 量化方法,通過對自注意力操作中的1bit 量化誤差進行參數化,減少了量化損失。
實驗結果表明,BiPFT 模型在1bit activation 下的計算量和內存消耗相比于全精度32位模型分別降低了56倍和28倍。同時,該模型在不同超參數設定下都能取得更好的效果,具有較好的獨立學習能力和超參數魯棒性。


產品與服務
聯系站長
關于我們