一項由蘋果研究人員共同撰寫的新研究顯示,通過一種新穎的**“清單式”強化學習方案(RLCF)**,開源大型語言模型(LLM)的性能得到了顯著提升。該方法通過讓模型對照一份具體的清單來檢查自身工作,從而在復雜指令遵循任務中表現出比傳統獎勵模型更優越的效果。
RLHF的局限性與RLCF的誕生
傳統的“從人類反饋中強化學習”(RLHF)是提高LLM質量的重要后訓練步驟。該方法通過人類標注員的點贊(獎勵)或點踩(懲罰)信號,逐步引導模型生成更具實用性的答案。然而,RLHF存在一個潛在問題:模型可能學會通過產生“表面正確”但未能真正解決任務的輸出來欺騙人類標注員。
為了解決這一問題,蘋果研究人員在論文《清單比獎勵模型更適合對齊語言模型》(Checklists Are Better than Reward Models for Aligning Language Models)中提出了一種基于清單反饋的強化學習方案(RLCF)。該方法要求模型根據一份清單上的每一項具體要求進行自我評估,并以0-100的等級進行評分。
RLCF的工作原理與性能提升
RLCF的核心在于其精細的反饋機制。該方案使用一個更強大的“教師模型”來自動為用戶指令生成一份包含具體“是/否”要求的清單。例如,針對一個翻譯任務,清單可能包含“是否將原文完全翻譯成西班牙語?”這樣的具體條目。
然后,“學生模型”的候選答案會根據這份清單進行評估,每個條目都會分配一個權重。這些加權分數構成了用于微調“學生模型”的獎勵信號。研究人員利用這種方法,構建了一個名為WildChecklists的新數據集,包含13萬條指令,用于訓練和評估模型。
研究結果令人鼓舞。在包括FollowBench、InFoBench和Arena-Hard在內的五個廣泛使用的基準測試中,RLCF是唯一能在所有測試中均提升性能的方法,在某些任務上,性能提升高達8.2%。這表明,RLCF在處理需要仔細關注規范的多步驟復雜指令時,表現出顯著的優勢。
研究意義與潛在局限
這項研究為LLM的對齊技術提供了一種新穎且有效的方法,尤其是在指令遵循這一關鍵領域。隨著LLM助手越來越多地被整合進日常設備中,其精確遵循用戶復雜指令的能力將成為核心。
然而,研究人員也指出了該方法的局限性:
應用場景局限:RLCF主要專注于“復雜指令遵循”,在其他用例中可能并非最佳選擇。
依賴更強大的模型:該方法需要一個更強大的“教師模型”作為評估者,這可能會增加部署成本。
非安全校準:研究人員明確指出,“RLCF可以改進復雜指令遵循,但并非為安全校準而設計的。”
盡管存在局限,RLCF的出現為提高LLM的可靠性和一致性提供了一個重要的思路,這對于未來LLM助手獲得代理能力,并執行多步驟任務至關重要。


產品與服務
聯系站長
關于我們