大型語言模型(LLM)通過結(jié)合任務(wù)提示和大規(guī)模強(qiáng)化學(xué)習(xí)(RL)在復(fù)雜推理任務(wù)中取得了顯著進(jìn)展,如 Deepseek-R1-Zero 等模型直接將強(qiáng)化學(xué)習(xí)應(yīng)用于基礎(chǔ)模型,展現(xiàn)出強(qiáng)大的推理能力。然而,這種成功在不同的基礎(chǔ)模型系列中難以復(fù)制,尤其是在 Llama 系列上。這引發(fā)了一個(gè)核心問題:究竟是什么因素導(dǎo)致了不同基礎(chǔ)模型在強(qiáng)化學(xué)習(xí)過程中表現(xiàn)不一致?強(qiáng)化學(xué)習(xí)在 Llama 模型上的擴(kuò)展限制
OpenAI 的 o1、o3和 DeepSeek 的 R1等模型在競賽級數(shù)學(xué)問題上通過大規(guī)模強(qiáng)化學(xué)習(xí)取得了突破,推動(dòng)了對千億參數(shù)以下小型模型強(qiáng)化學(xué)習(xí)能力的探索。然而,這些進(jìn)展大多局限于 Qwen 模型系列,難以在 Llama 等模型上復(fù)現(xiàn)。預(yù)訓(xùn)練流程缺乏透明度,使得理解預(yù)訓(xùn)練如何影響強(qiáng)化學(xué)習(xí)的擴(kuò)展變得困難。一些非傳統(tǒng)研究發(fā)現(xiàn),一次性提示可以提高 Qwen 的推理能力,但對 Llama 卻收效甚微。盡管 OpenWebMath、MathPile 等項(xiàng)目致力于整理高質(zhì)量的數(shù)學(xué)預(yù)訓(xùn)練語料庫,但其規(guī)模仍受限于千億個(gè) token 以下。 探索訓(xùn)練中期的穩(wěn)定衰減策略
上海交通大學(xué)的研究人員以 Qwen 和 Llama 為研究對象,深入探究了中期訓(xùn)練策略對強(qiáng)化學(xué)習(xí)動(dòng)態(tài)的影響,并得出了以下見解:
首先,像 MegaMath-Web-Pro 這樣的高質(zhì)量數(shù)學(xué)語料庫能同時(shí)提升基礎(chǔ)模型和強(qiáng)化學(xué)習(xí)的效果。其次,使用問答式數(shù)據(jù),特別是包含長 CoT(Chain-of-Thought)推理的數(shù)據(jù),可以進(jìn)一步增強(qiáng)強(qiáng)化學(xué)習(xí)效果。第三,長 CoT 會(huì)在強(qiáng)化學(xué)習(xí)訓(xùn)練中引入冗長性和不穩(wěn)定性。最后,在中期訓(xùn)練中應(yīng)用擴(kuò)展可以提升下游強(qiáng)化學(xué)習(xí)的性能。
研究人員提出了一種名為“穩(wěn)定-衰減”的兩階段中期訓(xùn)練策略:首先使用2000億個(gè) token 訓(xùn)練基礎(chǔ)模型,然后在三個(gè)以 CoT 為中心的分支上使用200億個(gè) token 進(jìn)行訓(xùn)練。最終,這一策略成功生成了具有強(qiáng)大強(qiáng)化學(xué)習(xí)兼容性的 OctoThinker 模型。 RL 配置和基準(zhǔn)評估
研究人員使用 MATH8K 數(shù)據(jù)集進(jìn)行強(qiáng)化學(xué)習(xí) (RL) 訓(xùn)練提示,配置包括全局訓(xùn)練批次大小128、每個(gè)查詢16個(gè) rollout 響應(yīng)以及 PPO 最小批次大小64。實(shí)驗(yàn)在 Llama-3.2-3B-Base 和 Qwen2.5-3B-Base 模型上進(jìn)行。在評估中,基礎(chǔ)語言模型采用少樣本提示,而強(qiáng)化學(xué)習(xí)調(diào)優(yōu)模型在 GSM8K、MATH500、OlympiadBench 和 AMC23 等指標(biāo)任務(wù)上采用零樣本提示。
在強(qiáng)化學(xué)習(xí)訓(xùn)練期間,Qwen 模型的響應(yīng)長度持續(xù)增加并保持在合理范圍內(nèi),而 Llama 模型則表現(xiàn)出異常行為,平均響應(yīng)長度飆升至4,096個(gè) token。評估結(jié)果進(jìn)一步表明,強(qiáng)化學(xué)習(xí)調(diào)優(yōu)后的 Qwen2.5-3B 在各個(gè)基準(zhǔn)測試中均有所提升,而 Llama-3.2-3B 的提升則微乎其微。 OctoThinker 在 RL 兼容性方面優(yōu)于 Llama
在13個(gè)數(shù)學(xué)基準(zhǔn)測試中,每個(gè) OctoThinker 分支都比原始 Llama 基礎(chǔ)模型提升了10%-20%,并且在所有規(guī)模的穩(wěn)定階段模型上都取得了持續(xù)的提升。OctoThinker-Zero 系列在強(qiáng)化學(xué)習(xí)擴(kuò)展過程中展現(xiàn)出多樣化的思維行為,其中 OctoThinker-Long 變體表現(xiàn)出色。在強(qiáng)化學(xué)習(xí)訓(xùn)練過程中比較三個(gè)3B 規(guī)模基礎(chǔ)模型時(shí),OctoThinker-Long-3B 的表現(xiàn)優(yōu)于原始 Llama-3.2-3B 模型,并與以強(qiáng)大的推理能力和廣泛預(yù)訓(xùn)練而聞名的 Qwen2.5-3B 模型達(dá)到相近的性能水平。混合分支和短分支的性能略低,尤其是在更具挑戰(zhàn)性的基準(zhǔn)測試中。 結(jié)論和未來工作:邁向 RL-Ready 基礎(chǔ)模型
該研究深入探討了 Llama 和 Qwen 等基礎(chǔ)模型在強(qiáng)化學(xué)習(xí)推理過程中行為差異的原因,并強(qiáng)調(diào)了中期訓(xùn)練對強(qiáng)化學(xué)習(xí)可擴(kuò)展性的重要性。兩階段中期訓(xùn)練策略成功將 Llama 轉(zhuǎn)化為更適合強(qiáng)化學(xué)習(xí)的基礎(chǔ)模型,最終誕生了 OctoThinker 模型。
未來的研究方向包括:策劃更高質(zhì)量的數(shù)學(xué)語料庫以改善中期訓(xùn)練;使用開放配方創(chuàng)建 RL 友好的基礎(chǔ)模型,無需從長 CoT 推理模型中進(jìn)行提煉;分離 QA 格式和內(nèi)容以分別了解它們的貢獻(xiàn);并通過新的分支(例如工具集成推理)擴(kuò)展 OctoThinker 家族。


產(chǎn)品與服務(wù)
聯(lián)系站長
關(guān)于我們