近日,南京大學的周志華教授團隊發布了一項重要研究,首次理論證明了在大語言模型中可以發現內源性獎勵模型,并有效應用強化學習(RL)來提升模型表現。
當前,許多對齊方法依賴于人類反饋強化學習(RLHF),這種方法需要大量高質量的人類偏好數據來訓練獎勵模型。然而,構建這樣一個數據集不僅耗時費力,還面臨成本高昂的挑戰。因此,研究者們開始探索替代方案,其中基于 AI 反饋的強化學習(RLAIF)受到關注。這種方法利用強大的大語言模型自身生成獎勵信號,以降低對人類標注的依賴。
研究團隊的發現令人振奮:在標準的下一個 Token 預測訓練中,強大的通用獎勵模型其實是潛藏于每一個大語言模型中的。團隊提出的 “內源性獎勵” 概念,意味著我們可以從這些模型中提取出一種有效的獎勵機制,而無需依賴外部的評估來源。這一理論不僅為獎勵模型的構建提供了新思路,還展示了如何有效地利用模型自身的內源性獎勵進行微調,進而顯著提升模型的表現。
研究結果表明,使用內源性獎勵進行的微調能夠在誤差范圍內超越傳統基線模型,尤其在復雜任務中表現更為突出。團隊進行了廣泛的實驗驗證,結果顯示這一新方法優于現有的獎勵模型,并且在各類測試中表現出色。
此研究的發布,無疑為未來的大語言模型開發和應用打開了新的大門。研究人員希望,這種利用內部獎勵機制的策略,能夠降低開發成本,提高效率,并推動人工智能的更廣泛應用。


產品與服務
聯系站長
關于我們