国产jjizz一区二区三区视频,国产乱国产乱老熟300,国产福利一区二区三区视频在线 -->

Post-Training有多重要?AI2研究員長文詳解前沿模型的后訓練秘籍

更多場景

2024年08月20日

鏈接已復制

  越來越多研究發現,后訓練對模型性能同樣重要。Allen AI的機器學習研究員Nathan Lambert最近發表了一篇技術博文,總結了科技巨頭們所使用的模型后訓練配方。

  隨著LLM學界和工業界日新月異的發展,不僅預訓練所用的算力和數據正在瘋狂內卷,后訓練(post-training)的對齊和微調方法也在不斷更新。

  InstructGPT、WebGPT等較早發布的模型使用標準RLHF方法,其中的數據管理風格和規模似乎已經過時。

  最近幾個月來,Meta、谷歌和英偉達等AI巨頭紛紛發布開源模型,附帶發布詳盡的論文或報告,包括Llama3.1、Nemotron340B、Gemma2,以及Apple Intellegence的基礎模型報告。

  從這些披露的信息中,我們可以看到后訓練方法的一些前沿變化趨勢。Allen AI研究科學家Nathan Lambert最近就這個話題發布了一篇文章。

  Nathan Lambert博士畢業于UC伯克利,曾在HuggingFace領導RLHF團隊,目前是Allen AI的機器學習研究員。

  他在文章中指出,合成數據、迭代訓練、人類偏好標簽和大量過濾,是這些模型所用后訓練方法的共同特點。具體來說,新的后訓練配方建立在以下預設的基礎上:

  - 合成數據的質量可能高于人類數據,特別是對于具有挑戰性的任務

  - RLHF可以比指令微調擴展到更大規模

  - 需要多輪訓練和生成才能得到最佳模型

  - 數據過濾是訓練中最重要的部分

  這些假設在很大程度上相互交織,構成了可以擴展到大型團隊的訓練方案,非常適用于科技巨頭。文章的具體內容對以上四點分別做出了詳細闡釋。

  新的標準Pipeline

  如果我們認為ChatBot Arena分數衡量了模型的后訓練表現,這就很大程度上與風格和魯棒性相關,幾乎所有的主要實驗室都通過迭代訓練獲得了顯著收益。

  我們還沒有看到Gemini2或GPT-5發布,它們也許會重置目前的后訓練范式,并有可能解鎖我們對模型更深層次的控制能力。

  但從目前來看,各個頂級實驗室所用的方法明顯趨同,這種趨勢比預期中要清晰得多。人類偏好數據

  最初的RLHF管道的重點是人類數據,主要有兩種形式:1)用于對專門任務進行指令微調的人類數據;2)有關任務完成度的人類偏好數據。

  這類微調數據集成本高昂且被嚴格保護,據我所知,唯一的公開的應該只有Lambert在HuggingFace團隊時發布的No Robots。

  人類偏好數據很大程度上與特定模型的改進有關。但即使在數據可以開放的情況下,也不能確定可以將一個模型的偏好遷移至另一個模型。

  Lambert在HuggingFace時曾和團隊做過類似的嘗試,但在小型付費數據合同上失敗了。

  現在,唯一用到人類數據的方面就是偏好數據。從Llama2披露的數據和其他傳聞來看,Meta可能在偏好數據上花費了10M-20M美元,甚至更多。這還僅限于最終發布的模型,不包括更廣泛的實驗和評估。

  Nemotron則使用大量合成數據來替代人類數據,但相對而言,這個模型的微調并不那么出色。

  對開放社區而言,有一個迫在眉睫的挑戰,但同時也是機遇:弄清這類數據中的人為干預的程度,能否用LLM-as-a-Judge或獎勵模型等方法代替。 擴展RLHF

  Llama3的對齊負責人Thomas Scialom在播客節目Latent Space上曾說道:

  RLHF的可擴展性要高得多。它成本更低、更容易操作,并且通常會帶來更好的性能。

  他還表示,自己會將「100%的對齊數據預算用于RL階段所需的對齊數據,而不是在指令上花費更多時間。」

  開源的對齊工作中大多專注于擴展指令微調(IFT,或稱為 SFT)。IFT容易操作、適用于多種任務,而且方便與合成數據共同使用。

  但很明顯,產業界僅將IFT作為擴展RLHF的起點。SFT數據主要關注以前模型未能覆蓋的特定領域,然后在此基礎上擴展RLHF。

  RLHF是一個迭代過程,模型的生成過程可以讓它繼續改進。Llama2和 Nemotron論文中詳細介紹了5輪訓練,但我們不知道這個數字是否有上限。

  Llama3.1進行了6輪偏好數據的訓練,Llama2是5輪,Nemotron是4輪,之前還有多輪指令微調。

  對于人類偏好數據而言,進行多輪迭代可能主要出于可行性方面的考量:

  1. 數據從注釋公司分批傳送到實驗室

  2. 進行多輪小規模的訓練可以降低最終產品交付的風險。與其等待所有數據到位后才開始訓練,不如讓模型逐漸步入正軌

  這類現實因素看起來無關緊要,但往往會觸發某種行業規范。

  下面這張圖片來自Llama2論文,記錄了5輪拒絕采樣和PPO相關的數據。

  Nemotron還進行了2輪SFT微調和4輪對齊。其中,RPO是用DPO優化器加權的獎勵模型。

  類似的迭代RLHF方法可以追溯到Anthropic提出的「憲法人工智能」,但開源社區似乎沒有大規模復現這個結果。

  目前,學術界正在關注「在線DPO訓練」,這在方向上是相似的,但對各輪之間數據沒有那么關注。這種方法目前仍需要大量手動操作,但一旦實現流程自動化,在線DPO將成為未來。

  事實上,各個團隊對后訓練階段的算法選擇不應該如此一成不變。DPO和PPO各有優劣,前者更容易擴展,但PPO啟發的方法(如在線RL)具有更高的性能上限。

  目前這些方案主要出于簡潔性考量,因為這些團隊仍然相對較新并且正在構建模塊化系統,Llama3后訓練團隊中一名成員的說法也證實了這種具備工程簡潔性的方法。

  Llama3有一個簡單的后訓練循環:拒絕采樣、SFT 和 DPO。這不僅在經驗層面有最佳性能,還實現了可復現性。而且,團隊可以異步探索許多不同的工作流(例如編碼、數學),將數據匯集到同一個簡單的循環中。 合成數據

  這種新的RLHF循環中,很重要的一環是在大多數任務上超越人類能力的合成指令數據。

  如果可以讓模型有一點點提升、生成更好的指令,那就「重新開始」,更新檢查點。

  Meta在論文中明確表示,他們「使用405B模型來提高我們較小模型的后訓練質量」;谷歌通過蒸餾出Gemini Flash來做到這一點,但實際上大多數前沿模型可能都包含一些類似步驟。

  我聽說OpenAI正在使用50萬億token的數據訓練下一代模型,其中大部分為合成數據。去年有一個傳言,Anthropic擁有「預訓練規模的憲法AI語料庫」,現在看來這也很合理。

  這些AI公司意識到合成數據的重要性應該是在12~18個月之前,當他們不再使用模型輸出進行自我迭代訓練的時候。但Meta不一樣,因為受益于其他更好的開放模型。

  看看當今的后訓練就可以清楚知道,合成數據造成模型崩潰的問題被過分夸大了。只有在人為設置的環境中,丟棄原始數據、只留下生成的新數據時,才會發生模型崩潰。 數據質量是王道

  Llama3.1報告的大部分內容都是關于數據管理的細節,其中每個相關的子領域都需要廣泛而具體的管理說明。

  這與我所知的OpenAI John Schulman領導的后訓練團隊以及其他類似團隊的工作情況相符——指定一個特定領域,獲得相關數據,然后模型就會變得更好。

  但如果沒有大量的數據過濾和管理,上述的RLHF方法都不起作用。

  在Allen AI,我們在后訓練流程中開始更加優先考慮數據,可以立即感受到模型提升速度的變化。

  Llama3.1等模型到報告中有提及了很多細節,比如正則化、對損失函數的調整、模型平均等等,但這些都是模型性能的邊際收益,很大程度上超出了核心微調循環的范圍。

  到了一定的時間節點,這些細節都會變得微不足道。

海報生成中...

+1

來源:新智元公眾號

延展資訊

最新新聞

熱門新聞

久久久久久久少妇| 国精品**一区二区三区在线蜜桃| 丰满的少妇愉情hd高清果冻传媒 | 一本久久a久久精品vr综合| 久久久蜜臀国产一区二区| 亚洲国产精品成人综合 | 欧美情侣在线播放| 亚洲.国产.中文慕字在线| 日韩av在线免费观看| 欧美做受xxxxxⅹ性视频| 蜜臀久久精品久久久久| 国产精品乱码人人做人人爱| 亚洲成精国产精品女| 欧美亚洲日本一区| 99久久久精品免费观看国产| 欧美三级网站在线观看| 日韩一区二区三区四区| 韩国黄色一级大片| 亚洲无在线观看| 中文字幕理论片| 一区二区中文字幕在线| 欧美视频在线观看免费| 最新的欧美黄色| 久久中文字幕在线观看| 成人久久精品人妻一区二区三区| 午夜精品福利一区二区三区av| 欧美性大战久久| 欧美一区二区三区系列电影| 黄色大片在线免费看| 麻豆一区二区三| 国产日韩av在线| 亚洲AV无码精品色毛片浪潮| 欧美性猛交xxxx乱大交蜜桃| 久热精品视频在线免费观看| 国产二级片在线观看| 久久精品国产亚洲av无码娇色| 欧美亚洲精品在线观看| 毛片精品免费在线观看| 极品白嫩的小少妇| 国产成人av一区二区| 在线观看亚洲精品视频| 欧美在线激情网| 久久av无码精品人妻系列试探| 黑人狂躁日本妞一区二区三区| 裸体大乳女做爰69| 国产欧美日韩成人| 亚洲制服欧美中文字幕中文字幕| 国产精品亚洲综合天堂夜夜| 看黄色录像一级片| 91免费视频播放| 精品国产免费一区二区三区四区 | 久久99视频精品| 欧美在线观看日本一区| 美女视频黄免费| 欧美精品做受xxx性少妇| 日本午夜一区二区| 性生活免费在线观看| 亚洲精品成人av| 久久黄色小视频| 亚洲精品视频在线播放| 欧美特级www| 麻豆成人在线看| 九九视频在线观看| 久久这里只有精品6| 国产99久久精品一区二区| www.国产免费| 亚洲高清一区二| 免费男同深夜夜行网站| 国产成人精品亚洲| 精品成人私密视频| 中文字幕天堂av| 亚洲天堂av女优| 精品无码一区二区三区的天堂| 欧美久久久精品| 日韩不卡一二三| 国产精品一区二区三区乱码| 国产精品日韩二区| 涩多多在线观看| 亚洲av少妇一区二区在线观看| 手机成人在线| 精品色蜜蜜精品视频在线观看| 亚洲性图一区二区| 欧美午夜影院一区| 亚洲巨乳在线观看| 国产成人三级在线观看视频| 国产私拍一区| 欧美不卡视频一区| 中文字幕一区在线观看视频| 亚洲av无码乱码国产精品fc2| 国产91在线免费| 欧美一级高清大全免费观看| 国产a级一级片| 久久亚洲精品石原莉奈| 国产精品久久久久久久久久久免费看 | www.com操| 欧美午夜视频网站| 午夜激情福利在线| 国内成人免费视频| 欧美成人午夜视频| 亚洲欧美日韩偷拍| 五月天亚洲婷婷| 男人操女人免费| 91成人在线观看喷潮| 欧美日韩理论片| 日韩色在线观看| 女人床在线观看| 日本成人超碰在线观看| 久久久久久久少妇| 精品国产a毛片| 久久久久久久久久久久久久久久久| 欧美肥婆姓交大片| 国产一区在线看| 成人久久一区二区三区| 日韩欧美国产成人| 久久精品www| 日韩性感在线| 看黄色一级大片| 欧美一区二区网站| 亚洲怡红院在线| 欧美精品一区二区久久婷婷| 69av.com| 欧洲视频一区二区| 日本欧美黄色片| 久久狠狠亚洲综合| 欧美黑人又粗大| 国产午夜精品无码一区二区| 色欧美乱欧美15图片| 999在线观看视频| 老司机午夜精品| 国产在线精品播放| 一级做a爱片久久毛片| 久久久成人av| 免费人成视频在线| 78m国产成人精品视频| 91导航在线观看| 91精品视频网| 亚洲天堂视频一区| 免费亚洲电影在线| 日韩av色在线| 国产三级三级在线观看| 久久综合九九| 成人精品在线视频| 91av在线免费观看| 国产视频久久久久| 欧美日韩国产欧美日美国产精品| 亚洲天堂av网站| 中文字幕国产亚洲| 亚洲男人天堂九九视频| 国产精品成人久久电影| 日韩欧美国产激情| 亚洲 欧美 日韩 国产综合 在线| 欧美日韩国产另类一区| 老熟妇一区二区三区| 日韩五码在线观看| 成人激情视频在线观看| 中文字幕欧美激情一区| 污污污www精品国产网站| 欧美极品在线视频| 91福利国产精品| 国产亚洲色婷婷久久99精品| 国产精品久久久久久久美男| 夜夜躁日日躁狠狠久久88av| 欧洲精品在线观看| 国产视频一二三四区| 午夜国产一区二区三区| 日本高清不卡一区二区三| 国产乱码精品1区2区3区| 国产免费av一区| 国产精品日韩欧美一区二区三区| 日韩国产在线观看| 国产精品无码自拍| 日韩av网站大全| 激情网站在线观看| 日本视频一区二区不卡| 国产成人午夜视频网址| 久久99精品网久久| 午夜宅男在线视频| av日韩在线看| 色婷婷综合在线观看| 日韩女同一区二区三区| 在线观看av中文字幕| av在线免费播放网址| 亚洲成熟丰满熟妇高潮xxxxx| 欧美在线欧美在线| 亚洲一级在线观看| 天天干在线观看| 国产一级二级三级| 三上悠亚 电影| 在线视频一区二区| 日本不卡中文字幕| 又黄又爽又色的视频| 国产福利精品av综合导导航| 国产午夜三级一区二区三| 成人中文字幕合集| 精品在线播放午夜| 伊人久久久久久久久久久久久久| 岳毛多又紧做起爽| 成人中心免费视频| 后进极品白嫩翘臀在线视频| 日本中文字幕一级片| 日韩欧美国产wwwww| 亚洲精品成av人片天堂无码| 国产成人无码一二三区视频| 日韩亚洲第一页| 处破女av一区二区| 人妻精品久久久久中文| 51国产成人精品午夜福中文下载| 五月综合激情日本mⅴ| 中文字幕+乱码+中文乱码91| 日本一本中文字幕| 日韩有码在线观看| 国产婷婷色一区二区三区四区| www.黄色com| 欧美日韩一区综合| 亚洲国产97在线精品一区| 麻豆freexxxx性91精品| japanese在线观看| 亚洲r级在线观看| 免费看黄色a级片| 久久久久999| 亚洲成精国产精品女| 丰满人妻一区二区| 素人fc2av清纯18岁| 国产在线视频你懂的| 日韩精品无码一区二区三区| 亚洲精品美女久久久| 成人精品一区二区三区中文字幕| 天天色综合天天| 国产影视一区二区| 日韩一级理论片| 日本电影亚洲天堂| 色偷偷久久一区二区三区| 国产91绿帽单男绿奴| 中文字幕亚洲影院| 国产区精品视频| 欧美日韩亚洲综合在线 | 性生交大片免费全黄| 午夜视频久久久| 中日韩美女免费视频网址在线观看| 波多野结衣一区二区三区| 欧美卡一卡二卡三| 免费高清一区二区三区| 国产69精品久久久久99| 午夜日韩在线电影| 久久久久久夜| а天堂中文在线资源| 99re99热| 91sa在线看| 欧美日韩高清影院| 国产69精品一区二区亚洲孕妇| 黄页网站免费观看| 69堂免费视频| 国产精品一区二区三区免费视频| 欧美在线观看18| 国产精品一区免费在线观看| 国产精品99精品| 污污视频网站免费观看| 亚洲综合中文字幕在线| 日韩成人黄色av| 日韩一区日韩二区| 欧洲精品久久一区二区| www..com.cn蕾丝视频在线观看免费版 | 日韩在线一区视频| 美女黄色片网站| 国产私拍一区| 国产欧美一区二区三区久久人妖 | 精品区在线观看| 少妇高潮av久久久久久| 国产精品三级视频| 欧美做爰爽爽爽爽爽爽| 日日摸天天爽天天爽视频| 亚洲精品女av网站| 亚洲视频电影图片偷拍一区| 亚洲妇熟xx妇色黄| 国产成人精品一区二区三区四区 | 中文在线第一页| 激情av中文字幕| 欧美大片免费播放| **亚洲第一综合导航网站| 中文字幕亚洲精品| 精品视频一区二区不卡| 久久久久久久综合| 日本欧洲一区二区| 最近中文字幕av| 日韩欧美在线视频播放| 一级黄色香蕉视频| 亚洲精品一卡二卡三卡四卡| 国产精品电影网| 在线视频欧美日韩| 欧美视频自拍偷拍| 综合中文字幕亚洲| 国产大陆a不卡| 亚洲av无码片一区二区三区| 久草免费新视频| 国产激情视频网站| 国产一区二区视频免费在线观看| 欧美一区少妇| 91精品美女在线| 久久777国产线看观看精品| 日韩欧美中文字幕精品| 精品成人乱色一区二区| 国产日韩欧美精品在线| 精品一区二区三区蜜桃| 朝桐光av在线一区二区三区| 日本午夜小视频| 51妺嘿嘿午夜福利| 国产视频999| 久久精品久久精品国产大片| av2014天堂网| 97国产精品久久久| 国产成人在线免费| bl动漫在线观看| 精品综合久久| 国产精品12345| 日本少妇毛茸茸| 91蜜桃视频在线观看| 99re亚洲国产精品| 国内精品免费午夜毛片| 亚洲新声在线观看| 日韩精品一区二区三区视频| 欧美午夜宅男影院在线观看| 亚洲欧洲成人精品av97| 久久综合色播五月| 处破女av一区二区| 精品在线免费观看| 美女视频黄a大片欧美| 少妇一区二区三区四区| 国产99视频在线| 一级黄色片在线| 欧美黑人一区二区| 在线观看中文字幕视频| 久草福利资源在线观看| 激情综合网五月天| 一区视频免费观看| 欧美在线视频第一页| 国产精品综合激情| 精品国产国产综合精品| 美女福利视频网| 破处女黄色一级片| 久久久久久久久久久久久久免费看 | 久久综合九色综合97婷婷女人 | 国产成人a亚洲精品| 91精品国产自产91精品| 国产综合在线看| 日本久久久久久久| 国产精品久久久久久久久久ktv| 国产成人精品国内自产拍免费看| 日韩av三级在线观看| 国产精品日韩精品| 91在线色戒在线| 国产成人av一区二区三区| 国产亚洲精品久久飘花| 久久99久久99精品蜜柚传媒| 久久久久高清| 亚洲欧洲中文| 无码熟妇人妻av在线电影| 国产午夜大地久久| 亚洲少妇久久久| 先锋资源在线视频| 干b视频在线观看| 久草手机视频在线观看| 欧美激情一区二区三区在线视频| 日韩一区二区精品在线观看| 日韩午夜电影av| 亚洲欧美一区二区三区情侣bbw | 亚洲天堂自拍偷拍| 蜜桃av鲁一鲁一鲁一鲁俄罗斯的 | 亚洲另类中文字| 精品美女久久久久久免费| 在线日韩国产精品| 亚洲第一福利网| 精品国产依人香蕉在线精品| 欧美大片免费观看在线观看网站推荐| 久久全球大尺度高清视频| 国产日韩欧美电影在线观看| 国产亚洲欧美一区二区三区| 亚洲欧美99| 成人免费aaa| 一区二区三区四区影院| 少妇视频一区二区| 中文字幕一区二区人妻| 日韩中文字幕亚洲一区二区va在线 | 精品91免费| 国产av天堂无码一区二区三区| 污污的网站免费| 刘亦菲国产毛片bd| 看黄色一级大片| 蜜臂av日日欢夜夜爽一区| 2014亚洲片线观看视频免费| 亚洲一区二区视频| 精品国产伦一区二区三区免费 | 中文字幕在线观看高清| 日韩国产一区二| 日本一区二区久久| 欧美日韩三级在线| 综合网日日天干夜夜久久| 国产精品久久久久久久久久尿| 欧美亚洲爱爱另类综合| 动漫av免费观看| 亚洲一区二区三区日韩| 一区精品在线观看| 国产精品1区2区| 天天av天天翘天天综合网色鬼国产| 精品国产一区二区国模嫣然| 国产+人+亚洲| 午夜午夜精品一区二区三区文| 亚洲色图38p| 午夜视黄欧洲亚洲| 国产又大又黄又粗又爽| 美女久久久久久久|