中文字幕在线免费看线人,亚洲一区在线电影,欧美性视频在线播放

　　近日，一篇文章在推特上爆火，利用純提示方法讓普通LLM搖身一變，成為具備復(fù)雜推理能力的OpenAIo1。

　　九月份，OpenAIo1正式登場。

　　作為新一代的老大哥，o1系列專注于復(fù)雜的推理任務(wù)，一經(jīng)推出也是直接屠榜了大模型競技場。

　　在下面這些難度較大的數(shù)學(xué)、編碼、科學(xué)等任務(wù)中，o1不僅比GPT-4o強(qiáng)上一大截，甚至比人類專家還要兇猛。

　　OpenAI對此曾表示:通往AGI的路上，已經(jīng)沒有任何阻礙。

　　——但其實(shí)還是有的，那就是新東西通常太貴。

　　o1-preview的每百萬輸入token為15美元，每百萬輸出token為60美元，而對位的GPT-4o分別是5美元和15美元。

　　本來GPT-4o就不便宜，現(xiàn)在想體驗(yàn)更強(qiáng)大的推理能力則需要再付出幾倍的成本。

　　嫌OpenAI o1太貴?那就自己做一個!

　　近日，一篇利用純提示方法讓普通LLM變身成為OpenAI o1的文章在推特上爆火。

　　動態(tài)思維鏈(Dynamic Chain of Thoughts)+ 反思(refection)+ 語言強(qiáng)化學(xué)習(xí)(verbal reinforcement)，

　　讓沒有經(jīng)過特殊推理訓(xùn)練的GPT-4o、價格更便宜的Claude3.5Sonnet，甚至是開源免費(fèi)的Llama3.18B，在復(fù)雜問題的推理上都獲得了相當(dāng)大的提升!

　　在嚴(yán)格的學(xué)術(shù)基準(zhǔn)測試中，「開掛」之后的Claude3.5Sonnet反超GPT-4o，和o1打平。

　　——不是o1玩不起，而是開掛更有性價比。

　　怎樣才能把Claude3.5調(diào)教成比博士還要強(qiáng)的o1呢?

　　在OpenAI o1的官網(wǎng)中有下面這樣一個范例，從密文和明文的對應(yīng)中找關(guān)系，然后解碼一段新的密文。

　　老實(shí)說，如果沒刷過這類題，小編估計一時半會兒也找不著北。

　　o1作對這道題花費(fèi)了5秒的思考時間，在官網(wǎng)中點(diǎn)開下拉可以看到它的推理過程，真是混沌又守序。

　　時而規(guī)規(guī)矩矩思考，找出不錯的方向，又經(jīng)常馬馬虎虎，與正確道路失之交臂，兜兜轉(zhuǎn)轉(zhuǎn)，跟人類很像。

　　——模擬這個思考的過程，也許就是關(guān)鍵。

　　make LLM smarter

　　首先，OpenAI o1所代表的reasoning model具有以下能力:

　　邏輯思考

　　作出推論

　　解決復(fù)雜問題

　　根據(jù)可用信息做出明智的決策

　　這些能力對于AI未來的發(fā)展至關(guān)重要:

　　Deeper Understanding:真正的推理能力表明LLM可以超越模式匹配，對世界有更深入的理解。

　　Problem-Solving:可以更有效地解決復(fù)雜領(lǐng)域的問題。

　　Decision-Making:幫助人類進(jìn)行復(fù)雜的決策過程。

　　Generalization:幫助LLM在out of distribution任務(wù)上表現(xiàn)得更好，增強(qiáng)它們的泛化性。

　　Practical Applications:推理能力可以加速科學(xué)發(fā)現(xiàn)，加強(qiáng)政策制定，并改善教育和醫(yī)療保健領(lǐng)域的個性化服務(wù)，比如AI Agent，可以獲取時間序列數(shù)據(jù)的數(shù)據(jù)集，找到一個更難的模式來識別，以此準(zhǔn)確預(yù)測未來。

　　對于o1來說，如果花費(fèi)更長的訓(xùn)練或者推理時間，其性能還會不斷提升。

　　那么，對于其他LLM來說，是否也能如此?

　　在閱讀了一些論文之后，作者決定創(chuàng)建新的提示范式，結(jié)合動態(tài)思維鏈、反思和語言強(qiáng)化，并通過實(shí)驗(yàn)來驗(yàn)證提示的效果。

　　深入細(xì)節(jié)

　　動態(tài)CoT、反思和語言強(qiáng)化學(xué)習(xí)的組合框架創(chuàng)建了一個高度自適應(yīng)和響應(yīng)迅速的問題解決AI系統(tǒng)。

　　這個過程從Dynamic CoT生成初始推理路徑開始，然后通過Reflection機(jī)制對其進(jìn)行評估和完善。

　　在每個反思階段之后，模型會以獎勵分?jǐn)?shù)的形式得到強(qiáng)化，從而指導(dǎo)未來的推理步驟。

　　這種循環(huán)過程使模型能夠迭代改進(jìn)輸出，適應(yīng)不斷變化的條件，并有效地響應(yīng)復(fù)雜的問題結(jié)構(gòu)。

　　比如在自主導(dǎo)航等多階段決策任務(wù)的場景中，模型可能首先使用Dynamic CoT探索路徑。

　　當(dāng)它遇到障礙或環(huán)境變化時，反射機(jī)制將允許它重新評估策略，而強(qiáng)化分?jǐn)?shù)則為如何調(diào)整其行動提供指導(dǎo)。

　　這樣的AI系統(tǒng)不僅能從操作中學(xué)習(xí)，而且隨著時間的推移不斷提高其推理能力，尤其在動態(tài)的真實(shí)應(yīng)用中。

　　以上穿插的一組截圖展示了LLM的推理過程。

　　基準(zhǔn)測試

　　只是能夠回答一些經(jīng)典問題，例如「計算單詞strawberry中 r 的數(shù)量」和「比較0.9和0.11哪個更大」，還不足以證明這套提示方法的功效——盡管大部分LLM連這樣的問題都搞不定。

　　作者為此創(chuàng)建了用于基準(zhǔn)測試評估的數(shù)據(jù)集，包含來自JEE(Joint Entrance Examination)Advanced和UPSC prelims的問題。

　　JEE Advanced被認(rèn)為是全球最難的本科入學(xué)考試之一，面向有志于加入印度理工學(xué)院(IIT)的學(xué)生。

　　UPSC公務(wù)員考試是世界上競爭最激烈的考試之一，吸引了希望在印度官僚機(jī)構(gòu)擔(dān)任管理人員的候選人，常識試卷測試不同領(lǐng)域的知識。

　　這些問題非常嚴(yán)格，測試深入的概念理解、解決問題的能力以及跨多個領(lǐng)域(如物理、數(shù)學(xué)、化學(xué)、社會科學(xué)等)的概念應(yīng)用。

　　作者使用腳本來進(jìn)行這項評估:

　　腳本使用Streamlit創(chuàng)建一個Web應(yīng)用程序，使用開源模型Groq API和閉源模型(如 gpt4o、o1和Claude)的API生成響應(yīng)。

　　腳本包括一個詳細(xì)的系統(tǒng)提示(以「You are an AI assistant that step by step explain your reasoning and explaining your reasoning ...」開頭)，用于指導(dǎo)模型的推理過程。

　　prompt指示AI使用動態(tài)思維鏈(CoT)、反射和語言強(qiáng)化學(xué)習(xí)技術(shù)。

　　AI將其推理分解為清晰的步驟，每個步驟都有標(biāo)題、內(nèi)容、置信度分?jǐn)?shù)和思考時間。

　　每3個步驟，AI會進(jìn)行一次自我反思，考慮潛在的偏見和不同的觀點(diǎn)。

　　腳本在允許最終答案之前至少執(zhí)行15個步驟，以確保對給定查詢進(jìn)行全面分析。

　　腳本修改自Benjamin Klieger的版本:https://github.com/bklieger-groq/g1

　　作者修改了其實(shí)現(xiàn)的邏輯，用戶會向AI系統(tǒng)提供一個問題，AI需要足夠的時間以各種方式思考這個問題，最終解決這個問題——模仿人類如何思考。

　　結(jié)果表明，動態(tài)CoT、反射和語言強(qiáng)化學(xué)習(xí)技術(shù)的應(yīng)用顯著提高了大多數(shù)模型的性能，尤其是Claude Sonnet和Llama3.18b。

　　滿分48分，使用提示方法的Claude Sonnet拿到了最高分(40分)，在數(shù)學(xué)、物理和化學(xué)問題上表現(xiàn)出色。Llama3.18b(33分)和GPT-4o(36分)也獲得了明顯改進(jìn)。

　　而不使用提示技術(shù)的o1得分為39分，確實(shí)具有很強(qiáng)的內(nèi)在解決問題的能力，——但開掛的Claude取得了勝利。

　　IMO2023基準(zhǔn)測試

　　OpenAI表示o1能夠在IMO上獲得83%的分?jǐn)?shù)。

　　作為對比，使用本文提示技術(shù)的Claude3.5Sonnet在首次測試中達(dá)到了50%，而如果多次測試就會反超o1。

　　Putnam數(shù)學(xué)競賽

　　The William Lowell Putnam Mathematical Competition，俗稱Putnam競賽，是一項面向美國和加拿大本科生的極具挑戰(zhàn)性的數(shù)學(xué)競賽。

　　比賽由兩個3小時的部分組成，每個部分有6個問題。每道題10分，最高120分。

　　Putnam競賽被廣泛認(rèn)為是世界上最難的本科數(shù)學(xué)競賽之一。

　　參賽者成績的中位數(shù)通常為0分或1分，這意味著超過一半的人基本上啥也沒做出來。

　　而在85年的競賽歷史中，只出現(xiàn)過五次滿分。

　　作者從2013到2023年的試卷中選取了28道題目:

　　結(jié)果Llama3.170B、Claude Sonnet和o1mini解決了14個問題，o1模型解決了13個問題，GPT-4o解決了9個問題。

　　可以看出，Claude Sonnet3.5使用本文的提示技術(shù)，能夠在需要更好推理能力的問題中勝過o1模型。

　　應(yīng)用

　　LLM就像一個閱讀了數(shù)百萬本書的人，但它不知道如何利用這些數(shù)據(jù)來解決問題，這就是提示技術(shù)的用武之地。

　　人們可以利用這種推理能力來構(gòu)建強(qiáng)大的工作流程自動化，以解決IT、網(wǎng)絡(luò)安全、汽車等各個領(lǐng)域的問題。

　　組織可以使用較小的開源模型來替代GPT-4o等成本較高的模型，用于需要復(fù)雜推理能力來解決的任務(wù)。

OpenAI o1太貴？那就自己做一個，純提示方法讓普通LLM進(jìn)化出復(fù)雜推理能力

延展資訊

最新新聞

熱門新聞