久久久久久久久伊人,国产精品一区二区久久久,欧美一区二区黄 -->

探秘 LLM 強(qiáng)化學(xué)習(xí)兼容性:上海交大揭示 Llama 與 Qwen 差異,推出 OctoThinker

更多動(dòng)態(tài)

2025年07月03日

鏈接已復(fù)制

  大型語言模型(LLM)通過結(jié)合任務(wù)提示和大規(guī)模強(qiáng)化學(xué)習(xí)(RL)在復(fù)雜推理任務(wù)中取得了顯著進(jìn)展,如 Deepseek-R1-Zero 等模型直接將強(qiáng)化學(xué)習(xí)應(yīng)用于基礎(chǔ)模型,展現(xiàn)出強(qiáng)大的推理能力。然而,這種成功在不同的基礎(chǔ)模型系列中難以復(fù)制,尤其是在 Llama 系列上。這引發(fā)了一個(gè)核心問題:究竟是什么因素導(dǎo)致了不同基礎(chǔ)模型在強(qiáng)化學(xué)習(xí)過程中表現(xiàn)不一致?強(qiáng)化學(xué)習(xí)在 Llama 模型上的擴(kuò)展限制

  OpenAI 的 o1、o3和 DeepSeek 的 R1等模型在競賽級數(shù)學(xué)問題上通過大規(guī)模強(qiáng)化學(xué)習(xí)取得了突破,推動(dòng)了對千億參數(shù)以下小型模型強(qiáng)化學(xué)習(xí)能力的探索。然而,這些進(jìn)展大多局限于 Qwen 模型系列,難以在 Llama 等模型上復(fù)現(xiàn)。預(yù)訓(xùn)練流程缺乏透明度,使得理解預(yù)訓(xùn)練如何影響強(qiáng)化學(xué)習(xí)的擴(kuò)展變得困難。一些非傳統(tǒng)研究發(fā)現(xiàn),一次性提示可以提高 Qwen 的推理能力,但對 Llama 卻收效甚微。盡管 OpenWebMath、MathPile 等項(xiàng)目致力于整理高質(zhì)量的數(shù)學(xué)預(yù)訓(xùn)練語料庫,但其規(guī)模仍受限于千億個(gè) token 以下。 探索訓(xùn)練中期的穩(wěn)定衰減策略

  上海交通大學(xué)的研究人員以 Qwen 和 Llama 為研究對象,深入探究了中期訓(xùn)練策略對強(qiáng)化學(xué)習(xí)動(dòng)態(tài)的影響,并得出了以下見解:

  首先,像 MegaMath-Web-Pro 這樣的高質(zhì)量數(shù)學(xué)語料庫能同時(shí)提升基礎(chǔ)模型和強(qiáng)化學(xué)習(xí)的效果。其次,使用問答式數(shù)據(jù),特別是包含長 CoT(Chain-of-Thought)推理的數(shù)據(jù),可以進(jìn)一步增強(qiáng)強(qiáng)化學(xué)習(xí)效果。第三,長 CoT 會(huì)在強(qiáng)化學(xué)習(xí)訓(xùn)練中引入冗長性和不穩(wěn)定性。最后,在中期訓(xùn)練中應(yīng)用擴(kuò)展可以提升下游強(qiáng)化學(xué)習(xí)的性能。

  研究人員提出了一種名為“穩(wěn)定-衰減”的兩階段中期訓(xùn)練策略:首先使用2000億個(gè) token 訓(xùn)練基礎(chǔ)模型,然后在三個(gè)以 CoT 為中心的分支上使用200億個(gè) token 進(jìn)行訓(xùn)練。最終,這一策略成功生成了具有強(qiáng)大強(qiáng)化學(xué)習(xí)兼容性的 OctoThinker 模型。 RL 配置和基準(zhǔn)評估

  研究人員使用 MATH8K 數(shù)據(jù)集進(jìn)行強(qiáng)化學(xué)習(xí) (RL) 訓(xùn)練提示,配置包括全局訓(xùn)練批次大小128、每個(gè)查詢16個(gè) rollout 響應(yīng)以及 PPO 最小批次大小64。實(shí)驗(yàn)在 Llama-3.2-3B-Base 和 Qwen2.5-3B-Base 模型上進(jìn)行。在評估中,基礎(chǔ)語言模型采用少樣本提示,而強(qiáng)化學(xué)習(xí)調(diào)優(yōu)模型在 GSM8K、MATH500、OlympiadBench 和 AMC23 等指標(biāo)任務(wù)上采用零樣本提示。

  在強(qiáng)化學(xué)習(xí)訓(xùn)練期間,Qwen 模型的響應(yīng)長度持續(xù)增加并保持在合理范圍內(nèi),而 Llama 模型則表現(xiàn)出異常行為,平均響應(yīng)長度飆升至4,096個(gè) token。評估結(jié)果進(jìn)一步表明,強(qiáng)化學(xué)習(xí)調(diào)優(yōu)后的 Qwen2.5-3B 在各個(gè)基準(zhǔn)測試中均有所提升,而 Llama-3.2-3B 的提升則微乎其微。 OctoThinker 在 RL 兼容性方面優(yōu)于 Llama

  在13個(gè)數(shù)學(xué)基準(zhǔn)測試中,每個(gè) OctoThinker 分支都比原始 Llama 基礎(chǔ)模型提升了10%-20%,并且在所有規(guī)模的穩(wěn)定階段模型上都取得了持續(xù)的提升。OctoThinker-Zero 系列在強(qiáng)化學(xué)習(xí)擴(kuò)展過程中展現(xiàn)出多樣化的思維行為,其中 OctoThinker-Long 變體表現(xiàn)出色。在強(qiáng)化學(xué)習(xí)訓(xùn)練過程中比較三個(gè)3B 規(guī)模基礎(chǔ)模型時(shí),OctoThinker-Long-3B 的表現(xiàn)優(yōu)于原始 Llama-3.2-3B 模型,并與以強(qiáng)大的推理能力和廣泛預(yù)訓(xùn)練而聞名的 Qwen2.5-3B 模型達(dá)到相近的性能水平。混合分支和短分支的性能略低,尤其是在更具挑戰(zhàn)性的基準(zhǔn)測試中。 結(jié)論和未來工作:邁向 RL-Ready 基礎(chǔ)模型

  該研究深入探討了 Llama 和 Qwen 等基礎(chǔ)模型在強(qiáng)化學(xué)習(xí)推理過程中行為差異的原因,并強(qiáng)調(diào)了中期訓(xùn)練對強(qiáng)化學(xué)習(xí)可擴(kuò)展性的重要性。兩階段中期訓(xùn)練策略成功將 Llama 轉(zhuǎn)化為更適合強(qiáng)化學(xué)習(xí)的基礎(chǔ)模型,最終誕生了 OctoThinker 模型。

  未來的研究方向包括:策劃更高質(zhì)量的數(shù)學(xué)語料庫以改善中期訓(xùn)練;使用開放配方創(chuàng)建 RL 友好的基礎(chǔ)模型,無需從長 CoT 推理模型中進(jìn)行提煉;分離 QA 格式和內(nèi)容以分別了解它們的貢獻(xiàn);并通過新的分支(例如工具集成推理)擴(kuò)展 OctoThinker 家族。

海報(bào)生成中...

+1

來源:AIbase基地

延展資訊

最新新聞

熱門新聞

国产日韩在线视频| 国产综合一区二区| 欧美精品一本久久男人的天堂| 草莓视频18免费观看| 宅男av一区二区三区| 精品久久一二三| 鲁丝一区二区三区免费| 亚洲一级理论片| 91精品国产一区二区| 黄色av电影网站| 亚洲精品国产精品乱码不99| 精品亚洲视频在线| 色国产综合视频| 少妇欧美激情一区二区三区| 欧美又粗又大又爽| 黄色在线观看av| 亚洲成人资源在线| 在线精品视频播放| 亚洲天堂久久av| 国产精品国产一区二区三区四区| 日本sm极度另类视频| 国产精品一区二区三区在线免费观看| 国产精品扒开腿做爽爽爽男男| 日韩国产高清在线| 2014国产精品| 最近日韩中文字幕| 国产熟妇久久777777| zzjj国产精品一区二区| 四季av日韩精品一区| 欧美激情视频一区二区三区| 欧美激情中文字幕| 艳妇乳肉豪妇荡乳xxx| 欧美另类极品videosbest最新版本| 999久久久久久| 亚洲国产欧美不卡在线观看| 一区二区成人在线| 国产精品69久久久久孕妇欧美| 欧美精品video| 精品伊人久久久久7777人| 欧美在线日韩精品| 在线亚洲高清视频| 日韩一区二区a片免费观看| 久久久影视精品| av电影在线观看完整版一区二区| 日韩欧美一区二区三区四区五区 | 亚洲天堂av综合网| 韩国精品久久久| 这里只有精品在线观看视频| 国产精品久久久久久婷婷天堂| 亚洲免费色视频| 人妻在线日韩免费视频| 国产伦精品一区二区三区免费视频| 亚洲高清在线视频| 91麻豆精品在线| 国产精品一线二线三线| 日韩一区二区三区精品视频| 男人的天堂a在线| 中文字幕精品视频在线| 日韩美女视频在线观看| 午夜一区二区三区在线观看| 中文字幕乱码视频| 免费看污污网站| 久久久天堂国产精品女人| 视频一区视频二区中文| 亚洲精品成人无码毛片| 精品国产一区二区三区麻豆免费观看完整版| 国产视频一区在线播放| 波多野结衣爱爱| 不卡的av中文字幕| 国产精品中出一区二区三区| 亚洲人成电影网站色xx| 黄色一区二区在线| 黄色片一区二区| 久久一级免费视频| 日韩av片在线看| 91香蕉视频在线下载| 日韩欧美久久一区| 国产亚洲一本大道中文在线| 亚洲伦理在线观看| 天天操天天舔天天射| 久久精品午夜福利| 精品伦精品一区二区三区视频| 日韩福利视频在线观看| 国产精品一区二区不卡| mm131美女视频| 中文字幕一区二区三区有限公司| 麻豆国产精品va在线观看不卡| 精品无码免费视频| 中国女人特级毛片| 亚洲天堂av线| 亚洲成人福利视频| 中文字幕の友人北条麻妃| 国产精品第七十二页| 亚洲精选一二三| 日韩女同强女同hd| 色在线观看视频| 日本精品视频在线| 5566中文字幕一区二区| 国产一卡二卡三卡| 亚洲精品一区二区精华| 亚洲AV无码片久久精品| 色悠悠亚洲一区二区| 久久久久久久久久久久久国产精品| 激情五月激情综合网| 成人久久久久久| www.麻豆av| 神马久久久久久| 老司机午夜免费福利| 丁香婷婷综合激情五月色| 欧美猛男性生活免费| 日韩精品一区二区三区高清免费| 国产网站一区二区三区| 成人激情免费在线| 最近日韩免费视频| 日韩午夜在线观看| 7777精品伊人久久久大香线蕉的 | 中日韩av在线播放| 99久久人妻精品免费二区| 亚洲色图日韩精品| 国产67194| 国产视频第一页| 国产一二精品视频| 国产精品天天看| 亚洲成人午夜电影| 精品国产一区二区三区忘忧草| 欧美va日韩va| 久久九九有精品国产23| 国产精品扒开腿做爽爽爽男男| 69174成人网| 亚洲色精品三区二区一区| 国产 欧美 在线| 一区二区三区亚洲视频| 国产91精品入口| 欧美日韩国产一区在线| 色偷偷偷亚洲综合网另类 | 天天操狠狠操夜夜操| 亚洲一级黄色录像| av网站免费播放| 老**午夜毛片一区二区三区| 久久久久久夜精品精品免费| 欧美日韩成人激情| 精品一区精品二区| 国产一级二级三级精品| 免费在线看黄色片| 校园春色 亚洲| www国产在线| 五月天久久比比资源色| 亚洲性生活视频| 日韩视频精品| 亚欧精品视频一区二区三区| 久久精品官网| 亚洲另类在线一区| 色哟哟入口国产精品| 中文字幕中文字幕在线中一区高清| 在线精品一区二区三区| 国产裸体美女永久免费无遮挡| 91在线播放网址| 亚洲精品一区二区三区在线观看| 99精品国产高清一区二区| 日韩a在线播放| www香蕉视频| 日韩一二三区不卡| 亚洲国产精品www| 黄色av网站免费观看| 第一福利永久视频精品 | 在线观看国产区| 2020国产精品| 一区二区三区精品99久久| 99re6这里有精品热视频| 国产女主播喷水高潮网红在线| 日韩精品一区二区三区第95| 欧美日韩一区二区免费在线观看 | 久久91精品国产91久久跳| 日本成年人网址| 精品小视频在线观看| 亚洲最色的网站| 免费看污久久久| 天天干天天干天天操| 欧美国产1区2区| 国产精品国产福利国产秒拍| 免费污网站在线观看| 亚洲色图另类专区| 亚洲xxxx做受欧美| 日韩免费一二三区| 日本电影亚洲天堂一区| 欧美视频1区| 欧美黄色免费在线观看| 午夜国产精品一区| 亚洲精品国产精品国自产| 国产丰满美女做爰| 最新中文字幕亚洲| 色噜噜在线观看| 成人美女视频在线观看| 91热精品视频| 国产情侣av在线| 亚洲国产精品yw在线观看| 欧美伦理视频在线观看| 91精品视频免费观看| 欧美日韩国产成人| 亚洲精品在线视频观看| 欧美一区二区三区爽爽爽| 国产精品一区二区三区在线| 欧美日韩一区二区三区电影| 西西44rtwww国产精品| 亚洲高清视频一区二区| 波多野结衣一本一道| 亚洲精品之草原avav久久| 欧美日韩在线一| 91色视频在线| 久久久久久欧美| 日韩国产高清在线| 欧美视频第一区| av网站免费线看精品| 成人中文字幕在线观看| 国产精品一区二区无码对白| 日韩电影在线观看一区| 亚洲成人av片在线观看| 亚洲一区在线不卡| 国产日韩三级在线| 日韩欧美在线电影| 国产精品亚洲专一区二区三区 | 黑鬼狂亚洲人videos| 国产成人综合网| 欧美激情欧美激情在线五月| 香蕉视频黄色在线观看| 精品手机在线视频| 亚洲精品va在线观看| 日本在线视频www| 欧美丝袜丝交足nylons图片| 毛片久久久久久| 日韩精品在线免费播放| 91超薄丝袜肉丝一区二区| 91精品国产99久久久久久| 日本欧美一区二区三区| 国产欧美综合一区| 亚洲成av人综合在线观看| 国产精彩免费视频| 欧美精品一区二区三区高清aⅴ | 特级丰满少妇一级aaaa爱毛片| 日韩在线视频免费看| 日韩一区二区三区视频在线观看| 国产一区二区三区在线视频观看| 欧美精品久久久久| 波波电影院一区二区三区| 欧美日韩精品区别| 日韩在线视频导航| 国产一区二区三区av电影| wwwwwxxxx日本| 日本美女一级视频| 国产三级三级看三级| 久久精品国产综合| 99亚偷拍自图区亚洲| 国产精品无码一区二区三区免费| 国产精品亚洲综合天堂夜夜| 免费人成精品欧美精品| 亚洲自拍偷拍一区二区三区| 精品成人一区二区三区四区| 精品久久久av| 国产日韩综合av| 午夜精品久久久久久久蜜桃| 九九热久久66| 日韩三级视频中文字幕| 琪琪一区二区三区| 风间由美一二三区av片| 青草青草久热精品视频在线网站| 亚洲成a人v欧美综合天堂| 国产又黄又爽又色| 一区二区不卡在线观看| 国产精品欧美一区二区| 国产欧美精品一区二区色综合朱莉| 日韩欧美中文在线视频| 精品久久人人做人人爰| 国产精品久久久久久免费| 国产综合 伊人色| 欧美激情一区二区三区成人 | 日韩av中文字幕在线播放| 日本精品999| 野战少妇38p| 一区二区三区我不卡| 欧美人在线观看| 动漫精品一区二区| 国产精品一卡二| 亚洲男人天堂网址| 国产中年熟女高潮大集合| 手机成人av在线| 777午夜精品福利在线观看| 精品国产电影一区| 国产精品一区二区三区网站| 在线免费黄色av| 亚洲男同1069视频| 国产情侣呻吟对白高潮| 茄子视频成人免费观看| 日本在线观看一区二区三区| 在线成人免费网站| 欧美男人的天堂一二区| 国产精品国产三级国产普通话三级| 熟妇人妻一区二区三区四区| 亚洲第九十七页| 久久婷五月综合| 免费看国产一级片| 日本一区二区在线视频| 97精品免费视频| 不卡av日日日| 亚洲欧美综合图区| 日韩精品影音先锋| 欧美在线观看禁18| 国产精品全国免费观看高清| 成人免费毛片播放| 亚洲av无码一区二区三区网址 | 欧美日韩在线成人| 欧美午夜性生活| 国产精品二区视频| 韩国三级视频在线观看| 瑟瑟视频在线观看| 欧美日韩一级在线观看| 久久午夜免费视频| 国产福利第一视频| 91女厕偷拍女厕偷拍高清| 亚洲国产成人在线| 欧美日韩国产综合新一区| 69堂成人精品免费视频| 亚洲国产精品高清久久久| 久久久久久久av| 国产精品久久久久久av福利| 国产伦精品一区二区三区视频黑人 | 国产视频99| 免费看国产一级片| 成年人网站av| 糖心vlog免费在线观看 | 国产高清不卡一区| 国产精品亲子伦对白| 女性生殖扒开酷刑vk| 欧美亚洲精品日韩| 久久国产乱子伦免费精品| 亚洲中文字幕无码av| 一级黄在线观看| 亚洲欧美一区二区视频| 精品无人国产偷自产在线| 色青青草原桃花久久综合| 亚洲一区二区三区四区视频| 91黄色在线看| 国产91丝袜美女在线播放| 亚洲成熟女性毛茸茸| 亚洲欧美偷拍另类a∨色屁股| 91精品在线免费| 欧美激情久久久久久| 欧美精品久久久| 一级做a免费视频| 成人在线免费看视频| 国内精品久久久久影院一蜜桃| 中文字幕一区日韩精品欧美| 亚洲电影av在线| 俄罗斯精品一区二区三区| 中文 日韩 欧美| 97人妻精品一区二区三区软件 | 一区二区三区精品| 久久精品视频网| 欧美日韩中文字幕一区| 黄色免费视频网站| 午夜精品国产精品大乳美女| 国产91视觉| 欧美精品一区二区三区免费播放| 欧美肉大捧一进一出免费视频| 日本天堂中文字幕| 日韩不卡一区二区三区 | 一区二区三区福利视频| 国产成人精品aa毛片| 在线视频你懂得一区| 色黄久久久久久| 一区二区三区在线视频播放| 伊人久久精品视频| 91入口在线观看| 久久久精品高清| 青青国产在线视频| 久久色在线视频| 精品久久国产字幕高潮| 国产视频在线观看一区| 婷婷六月天在线| 97免费观看视频| 亚洲成人精品在线观看| 色综合视频一区中文字幕| 久草青青在线观看| 亚洲AV无码精品自拍| 五月婷婷开心网| 国产传媒日韩欧美成人| 亚洲精品中文字幕乱码三区不卡| 亚洲高清视频免费| 黄色一级大片在线免费看国产一| 亚洲欧美在线观看| 国产精品一区二区三区在线播放 | 久青草国产97香蕉在线视频| 天堂精品视频| 亚洲欧美小视频| 亚洲欧美一区二区不卡| 日韩av观看网址| 欧美日韩国产黄色| 亚洲精品视频一区二区| 国产精品视频区| 无码人妻精品一区二区中文| 成人av电影免费在线播放| 超碰97人人做人人爱少妇| 成年人黄色片视频| 国产曰批免费观看久久久| 亚洲天堂国产精品| 91丨国产丨九色丨pron| 日产精品久久久一区二区福利| 午夜剧场免费看| 亚洲视频小说图片| 深夜福利成人| 国产黄色一区二区|