中文字幕在线免费看线人,亚洲一区在线电影,欧美性视频在线播放 -->

OpenAI o1太貴?那就自己做一個,純提示方法讓普通LLM進(jìn)化出復(fù)雜推理能力

更多場景

2024年11月08日

鏈接已復(fù)制

  近日,一篇文章在推特上爆火,利用純提示方法讓普通LLM搖身一變,成為具備復(fù)雜推理能力的OpenAIo1。

  九月份,OpenAIo1正式登場。

  作為新一代的老大哥,o1系列專注于復(fù)雜的推理任務(wù),一經(jīng)推出也是直接屠榜了大模型競技場。

  在下面這些難度較大的數(shù)學(xué)、編碼、科學(xué)等任務(wù)中,o1不僅比GPT-4o強(qiáng)上一大截,甚至比人類專家還要兇猛。

  OpenAI對此曾表示:通往AGI的路上,已經(jīng)沒有任何阻礙。

  ——但其實(shí)還是有的,那就是新東西通常太貴。

  o1-preview的每百萬輸入token為15美元,每百萬輸出token為60美元,而對位的GPT-4o分別是5美元和15美元。

  本來GPT-4o就不便宜,現(xiàn)在想體驗(yàn)更強(qiáng)大的推理能力則需要再付出幾倍的成本。

  嫌OpenAI o1太貴?那就自己做一個!

  近日,一篇利用純提示方法讓普通LLM變身成為OpenAI o1的文章在推特上爆火。

  動態(tài)思維鏈(Dynamic Chain of Thoughts)+ 反思(refection)+ 語言強(qiáng)化學(xué)習(xí)(verbal reinforcement),

  讓沒有經(jīng)過特殊推理訓(xùn)練的GPT-4o、價格更便宜的Claude3.5Sonnet,甚至是開源免費(fèi)的Llama3.18B,在復(fù)雜問題的推理上都獲得了相當(dāng)大的提升!

  在嚴(yán)格的學(xué)術(shù)基準(zhǔn)測試中,「開掛」之后的Claude3.5Sonnet反超GPT-4o,和o1打平。

  ——不是o1玩不起,而是開掛更有性價比。

  怎樣才能把Claude3.5調(diào)教成比博士還要強(qiáng)的o1呢?

  在OpenAI o1的官網(wǎng)中有下面這樣一個范例,從密文和明文的對應(yīng)中找關(guān)系,然后解碼一段新的密文。

  老實(shí)說,如果沒刷過這類題,小編估計一時半會兒也找不著北。

  o1作對這道題花費(fèi)了5秒的思考時間,在官網(wǎng)中點(diǎn)開下拉可以看到它的推理過程,真是混沌又守序。

  時而規(guī)規(guī)矩矩思考,找出不錯的方向,又經(jīng)常馬馬虎虎,與正確道路失之交臂,兜兜轉(zhuǎn)轉(zhuǎn),跟人類很像。

  ——模擬這個思考的過程,也許就是關(guān)鍵。

  make LLM smarter

  首先,OpenAI o1所代表的reasoning model具有以下能力:

  邏輯思考

  作出推論

  解決復(fù)雜問題

  根據(jù)可用信息做出明智的決策

  這些能力對于AI未來的發(fā)展至關(guān)重要:

  Deeper Understanding:真正的推理能力表明LLM可以超越模式匹配,對世界有更深入的理解。

  Problem-Solving:可以更有效地解決復(fù)雜領(lǐng)域的問題。

  Decision-Making:幫助人類進(jìn)行復(fù)雜的決策過程。

  Generalization:幫助LLM在out of distribution任務(wù)上表現(xiàn)得更好,增強(qiáng)它們的泛化性。

  Practical Applications:推理能力可以加速科學(xué)發(fā)現(xiàn),加強(qiáng)政策制定,并改善教育和醫(yī)療保健領(lǐng)域的個性化服務(wù),比如AI Agent,可以獲取時間序列數(shù)據(jù)的數(shù)據(jù)集,找到一個更難的模式來識別,以此準(zhǔn)確預(yù)測未來。

  對于o1來說,如果花費(fèi)更長的訓(xùn)練或者推理時間,其性能還會不斷提升。

  那么,對于其他LLM來說,是否也能如此?

  在閱讀了一些論文之后,作者決定創(chuàng)建新的提示范式,結(jié)合動態(tài)思維鏈、反思和語言強(qiáng)化,并通過實(shí)驗(yàn)來驗(yàn)證提示的效果。

  深入細(xì)節(jié)

  動態(tài)CoT、反思和語言強(qiáng)化學(xué)習(xí)的組合框架創(chuàng)建了一個高度自適應(yīng)和響應(yīng)迅速的問題解決AI系統(tǒng)。

  這個過程從Dynamic CoT生成初始推理路徑開始,然后通過Reflection機(jī)制對其進(jìn)行評估和完善。

  在每個反思階段之后,模型會以獎勵分?jǐn)?shù)的形式得到強(qiáng)化,從而指導(dǎo)未來的推理步驟。

  這種循環(huán)過程使模型能夠迭代改進(jìn)輸出,適應(yīng)不斷變化的條件,并有效地響應(yīng)復(fù)雜的問題結(jié)構(gòu)。

  比如在自主導(dǎo)航等多階段決策任務(wù)的場景中,模型可能首先使用Dynamic CoT探索路徑。

  當(dāng)它遇到障礙或環(huán)境變化時,反射機(jī)制將允許它重新評估策略,而強(qiáng)化分?jǐn)?shù)則為如何調(diào)整其行動提供指導(dǎo)。

  這樣的AI系統(tǒng)不僅能從操作中學(xué)習(xí),而且隨著時間的推移不斷提高其推理能力,尤其在動態(tài)的真實(shí)應(yīng)用中。

  以上穿插的一組截圖展示了LLM的推理過程。

  基準(zhǔn)測試

  只是能夠回答一些經(jīng)典問題,例如「計算單詞strawberry中 r 的數(shù)量」和「比較0.9和0.11哪個更大」,還不足以證明這套提示方法的功效——盡管大部分LLM連這樣的問題都搞不定。

  作者為此創(chuàng)建了用于基準(zhǔn)測試評估的數(shù)據(jù)集,包含來自JEE(Joint Entrance Examination)Advanced和UPSC prelims的問題。

  JEE Advanced被認(rèn)為是全球最難的本科入學(xué)考試之一,面向有志于加入印度理工學(xué)院(IIT)的學(xué)生。

  UPSC公務(wù)員考試是世界上競爭最激烈的考試之一,吸引了希望在印度官僚機(jī)構(gòu)擔(dān)任管理人員的候選人,常識試卷測試不同領(lǐng)域的知識。

  這些問題非常嚴(yán)格,測試深入的概念理解、解決問題的能力以及跨多個領(lǐng)域(如物理、數(shù)學(xué)、化學(xué)、社會科學(xué)等)的概念應(yīng)用。

  作者使用腳本來進(jìn)行這項評估:

  腳本使用Streamlit創(chuàng)建一個Web應(yīng)用程序,使用開源模型Groq API和閉源模型(如 gpt4o、o1和Claude)的API生成響應(yīng)。

  腳本包括一個詳細(xì)的系統(tǒng)提示(以「You are an AI assistant that step by step explain your reasoning and explaining your reasoning ...」開頭),用于指導(dǎo)模型的推理過程。

  prompt指示AI使用動態(tài)思維鏈(CoT)、反射和語言強(qiáng)化學(xué)習(xí)技術(shù)。

  AI將其推理分解為清晰的步驟,每個步驟都有標(biāo)題、內(nèi)容、置信度分?jǐn)?shù)和思考時間。

  每3個步驟,AI會進(jìn)行一次自我反思,考慮潛在的偏見和不同的觀點(diǎn)。

  腳本在允許最終答案之前至少執(zhí)行15個步驟,以確保對給定查詢進(jìn)行全面分析。

  腳本修改自Benjamin Klieger的版本:https://github.com/bklieger-groq/g1

  作者修改了其實(shí)現(xiàn)的邏輯,用戶會向AI系統(tǒng)提供一個問題,AI需要足夠的時間以各種方式思考這個問題,最終解決這個問題——模仿人類如何思考。

  結(jié)果表明,動態(tài)CoT、反射和語言強(qiáng)化學(xué)習(xí)技術(shù)的應(yīng)用顯著提高了大多數(shù)模型的性能,尤其是Claude Sonnet和Llama3.18b。

  滿分48分,使用提示方法的Claude Sonnet拿到了最高分(40分),在數(shù)學(xué)、物理和化學(xué)問題上表現(xiàn)出色。Llama3.18b(33分)和GPT-4o(36分)也獲得了明顯改進(jìn)。

  而不使用提示技術(shù)的o1得分為39分,確實(shí)具有很強(qiáng)的內(nèi)在解決問題的能力,——但開掛的Claude取得了勝利。

  IMO2023基準(zhǔn)測試

  OpenAI表示o1能夠在IMO上獲得83%的分?jǐn)?shù)。

  作為對比,使用本文提示技術(shù)的Claude3.5Sonnet在首次測試中達(dá)到了50%,而如果多次測試就會反超o1。

  Putnam數(shù)學(xué)競賽

  The William Lowell Putnam Mathematical Competition,俗稱Putnam競賽,是一項面向美國和加拿大本科生的極具挑戰(zhàn)性的數(shù)學(xué)競賽。

  比賽由兩個3小時的部分組成,每個部分有6個問題。每道題10分,最高120分。

  Putnam競賽被廣泛認(rèn)為是世界上最難的本科數(shù)學(xué)競賽之一。

  參賽者成績的中位數(shù)通常為0分或1分,這意味著超過一半的人基本上啥也沒做出來。

  而在85年的競賽歷史中,只出現(xiàn)過五次滿分。

  作者從2013到2023年的試卷中選取了28道題目:

  結(jié)果Llama3.170B、Claude Sonnet和o1mini解決了14個問題,o1模型解決了13個問題,GPT-4o解決了9個問題。

  可以看出,Claude Sonnet3.5使用本文的提示技術(shù),能夠在需要更好推理能力的問題中勝過o1模型。

  應(yīng)用

  LLM就像一個閱讀了數(shù)百萬本書的人,但它不知道如何利用這些數(shù)據(jù)來解決問題,這就是提示技術(shù)的用武之地。

  人們可以利用這種推理能力來構(gòu)建強(qiáng)大的工作流程自動化,以解決IT、網(wǎng)絡(luò)安全、汽車等各個領(lǐng)域的問題。

  組織可以使用較小的開源模型來替代GPT-4o等成本較高的模型,用于需要復(fù)雜推理能力來解決的任務(wù)。

海報生成中...

+1

來源:新智元公眾號

延展資訊

最新新聞

熱門新聞

91免费高清视频| 欧美日韩视频第一区| 91久色porny| 国产精品综合久久| 成人免费av资源| 91免费在线看| 亚洲欧美国产毛片在线| 亚洲777理论| 色一区在线观看| 在线观看一区日韩| 亚洲娇小xxxx欧美娇小| 色老头一区二区三区在线观看| 一本色道久久综合亚洲精品小说 | 国产一区二区日韩精品欧美精品| 亚洲欧美日韩一区二区在线| 色综合91久久精品中文字幕| 国产专区欧美专区| 精品国产乱码久久久久久丨区2区| 午夜精品亚洲一区二区三区嫩草 | 国产mv久久久| 1卡2卡3卡精品视频| 亚洲一区二区三区精品在线观看| 国产视频在线观看网站| 怡红院亚洲色图| 天堂av网手机版| 青青国产在线视频| 美国毛片一区二区| 一区在线观看视频| 日韩欧美一区中文| 欧美激情精品久久久久久黑人| 国产精品视频自拍| 在线成人av电影| 免费在线观看污网站| 日韩一区二区三区四区视频| 亚洲天堂久久久久| 从欧美一区二区三区| 亚洲一区免费视频| 亚洲图片在区色| 国产精品第一区| 一区二区不卡在线视频 午夜欧美不卡'| 老熟妇仑乱视频一区二区| 欧美福利第一页| 一本一道精品欧美中文字幕| 国产 日韩 欧美大片| 欧美日韩亚洲91| 中国china体内裑精亚洲片| 成人久久一区二区三区| 性一交一乱一伧国产女士spa| ass精品国模裸体欣赏pics| 91视频在线视频| 国产精品亚洲成人| 一本到一区二区三区| www.99久久热国产日韩欧美.com| av色综合网| 国产福利一区视频| 久草成人在线视频| 国产在线精品一区二区不卡了| 午夜影院在线观看欧美| 久久久精品影院| 久久大香伊蕉在人线观看热2| 三级av免费看| 在线观看视频中文字幕| 久久尤物电影视频在线观看| 日韩欧美成人一区| 91麻豆蜜桃| 污污网站在线观看视频| 国产美女www| 国产人妖乱国产精品人妖| 亚洲国产成人精品久久久国产成人一区| 国产精品91视频| 少妇无码av无码专区在线观看 | 久久国产精品99精品国产| 亚洲国产日韩a在线播放| 欧美成人自拍视频| 超碰10000| 特级片在线观看| 成人视屏免费看| 亚洲国产精品成人精品| 国产一区二区黄色| 香港三级日本三级| 午夜小视频在线播放| 91久久人澡人人添人人爽欧美 | 色婷婷av一区二区三区大白胸| 欧美激情啊啊啊| 国产深夜男女无套内射| 亚洲无码精品一区二区三区| 亚洲欧美在线aaa| 久久久免费在线观看| 欧美 丝袜 自拍 制服 另类| www亚洲视频| 亚洲视频在线一区观看| 51ⅴ精品国产91久久久久久| 999精彩视频| 好男人www在线视频| 欧美性一二三区| www.一区二区三区| 中文字幕 自拍| av电影在线观看不卡| 久久精品国产精品| 无码人妻精品一区二区三区66| 国产日产亚洲系列最新| 欧美午夜影院在线视频| 亚洲a在线观看| www.久久av| 成人av网站免费| 另类专区欧美制服同性| 宅男噜噜噜66国产免费观看| 天天干天天操av| 精品国产三级a在线观看| 先锋影音一区二区三区| 自拍偷拍18p| 色又黄又爽网站www久久| 国产精品裸体一区二区三区| 亚洲 欧美 变态 另类 综合| 中文字幕一区免费在线观看| 成人a级免费视频| 国产一二三四区在线| 欧美国产精品劲爆| 91精品国产综合久久香蕉的用户体验 | 中文字幕 91| 美女脱光内衣内裤视频久久网站 | 国产精品视频不卡| 日本xxxxxxxxx18| 国产夜色精品一区二区av| 欧美激情精品久久久久久免费印度 | 欧美日韩黄视频| 亚洲视频电影| 国产熟女一区二区三区四区| 欧美一级专区免费大片| 国产精品一色哟哟| 视频一区视频二区中文| 日韩中文理论片| 免费国偷自产拍精品视频| 免费成人在线观看| 欧美成人性色生活仑片| 偷拍女澡堂一区二区三区| 国产精品夫妻自拍| 国产日韩在线一区二区三区| 中文字幕+乱码+中文乱码www| 欧美日韩三级一区二区| 九色自拍视频在线观看| 国产在线看一区| 97国产一区二区精品久久呦 | 国产私拍一区| 一级久久久久久| 欧美变态tickling挠脚心| 国产精品乱码久久久久| 粉嫩av一区二区三区| 国产精品三级网站| 日本三级2019| 亚洲精品一区二区三区99| wwwwwxxxx日本| 久久嫩草精品久久久精品一| 亚洲一区亚洲二区亚洲三区| 在线观看免费黄色小视频| 欧美亚洲另类色图| 欧美大波大乳巨大乳| 中文字幕第315页| 亚洲国产精品va在线观看黑人| 日韩在线观看免费高清| 亚洲自拍三区| 欧美三级免费看| 91在线视频一区| 中文字幕av片| 欧美精品videos另类日本| 国产jzjzjz丝袜老师水多| 极品销魂美女一区二区三区| yellow视频在线观看一区二区| 日韩电影在线免费| 性欧美丰满熟妇xxxx性仙踪林| 91九色露脸| 亚洲欧美电影一区二区| 久久久免费看片| 97超级碰碰碰久久久| 高清免费成人av| 色综合久久精品亚洲国产| 久久久久9999| 中文字幕精品一区久久久久| 成年女人18级毛片毛片免费 | 日韩精品免费播放| 亚洲精品在线观看网站| 久久综合综合久久| 国产精品日韩精品| 一区二区www| 国产一区二区三区毛片| 国产一区欧美二区| 久久久久久国产精品mv| 在线免费av一区| www.欧美国产| 九九热免费在线| 国产欧美日韩视频| 8v天堂国产在线一区二区| 精品97人妻无码中文永久在线| 国产网站欧美日韩免费精品在线观看 | 久久久久久久久影院| 一区二区三区久久| 久在线观看视频| 久久天天躁日日躁| 久久久精品综合| 激情文学亚洲色图| 欧美激情视频网址| 午夜激情在线视频| 91久久精品国产| 91久久精品一区二区三| 免费观看国产精品| 久久亚洲天堂网| 久久久久久久久福利| 极品粉嫩美女露脸啪啪| 97视频资源在线观看| 日韩性xxxx爱| 不卡一区二区在线| 一级黄色片在线免费观看| 少妇久久久久久| 免费成人在线观看视频| 国产精品久久久久久亚洲av| 欧美精品 日韩| 麻豆一区在线观看| 久久伊人一区二区| 欧美在线视频一区| 在线观看一区不卡| 日本最新不卡在线| 欧美一区二区三区电影在线观看 | 亚洲精品美女在线观看| 欧美三级午夜理伦三级老人| 国产婷婷成人久久av免费高清 | 麻豆国产91在线播放| 麻豆91精品91久久久| 精品欧美一区二区久久久伦| 欧美日韩另类国产亚洲欧美一级| 波多结衣在线观看| 午夜剧场成人观在线视频免费观看| aaa亚洲精品| 亚洲精品在线视频免费观看| 视频直播国产精品| 久久伊99综合婷婷久久伊| 香港三日本三级少妇66| 欧美 变态 另类 人妖| 97av在线影院| 91精品福利视频| 国产成都精品91一区二区三| 999视频在线免费观看| 久久婷婷国产麻豆91天堂| 91精品久久久久久久99蜜桃 | 污片在线观看一区二区| 日本久久综合网| 亚洲蜜桃av| 久久99精品久久久久久噜噜| 亚洲国产一区在线观看| 日本一区免费视频| 性久久久久久久久久| 久久久免费精品| 午夜在线电影亚洲一区| 亚洲成人动漫一区| 成人av资源网站| 久久久久久久久久一级| 在线观看日韩精品视频| 中文字幕成人免费视频| 欧美一区二区成人| 一区二区三区四区视频精品免费| 国产a精品视频| 岛国精品一区二区| 精品国产成人在线| 精品欧美一区二区三区精品久久| 米奇精品一区二区三区在线观看| 国内伊人久久久久久网站视频| 久久夜色精品国产亚洲aⅴ| 色综合久久六月婷婷中文字幕| 国产精品中文字幕日韩精品| 波多野结衣一本一道| 91久久久久久久久久久久久久| 久久久国产精品无码| 久久精品一二三四| 欧美人与性动交| 欧美主播一区二区三区美女| 91亚洲精品久久久蜜桃| 精品国产91乱高清在线观看 | 精品毛片在线观看| 国产无遮挡又黄又爽又色| 亚洲欧美精品久久| 国产成人拍精品视频午夜网站| 久久久久久com| 性欧美亚洲xxxx乳在线观看| 日本午夜人人精品| 国产又粗又爽又黄的视频| av网站免费在线看| 亚洲国产成人一区二区| 日韩高清在线观看| 亚洲天堂2016| 国产精品国模大尺度视频| 美洲天堂一区二卡三卡四卡视频 | 欧美日韩激情一区| 狠狠色噜噜狠狠狠狠97| 亚洲免费三区一区二区| 91福利免费视频| 午夜精品久久久久久久蜜桃| 怡红院男人天堂| 国产色产综合色产在线视频| 91在线观看一区二区| 91在线码无精品| 亚洲色图另类专区| 91精品国产免费| 亚洲精品国产第一综合99久久| 97在线公开视频| 国产精品自拍一区| 亚洲激情网站免费观看| 亚洲色图色老头| 91黄色在线看| 日本一区二区三区免费视频| 日韩欧美黄色动漫| 国产精品电影网站| av av在线| 136福利视频导航| 麻豆精品一区二区三区| 国产精品一二三四| 亚洲国产视频在线| 精品国产亚洲在线| www.国产精品一二区| www.av一区视频| 成人激情免费在线| 1区1区3区4区产品乱码芒果精品| 成人写真福利网| 无码人妻丰满熟妇区五十路百度| 日韩少妇高潮抽搐| 精久久久久久久久久久| 久久综合成人精品亚洲另类欧美| 午夜欧美大尺度福利影院在线看| 宅男66日本亚洲欧美视频| 羞羞色国产精品| 日韩欧美成人一区二区| 2020久久国产精品| 久久久神马电影| 国产精品毛片一区二区| 国产一区二区三区四区五区美女 | 黄色激情在线视频| 国产一级在线观看视频| 国产精品美女久久久久久久| 日韩在线视频网站| 久久精品国产理论片免费| 国产在线视频三区| 中文字幕亚洲欧美日韩| 韩国女主播成人在线观看| 日韩一区二区视频在线观看| 国产日韩欧美在线观看| 2019日韩中文字幕mv| 奇米影音第四色| 一区二区三区在线观看av| 蜜桃视频污在线观看| 日韩欧美二区三区| 成人在线观看网址| 好男人www社区| 国产99久久九九精品无码免费| 亚洲自拍偷拍图区| 91精品国产免费久久综合| 日韩精品视频在线免费观看| 裸模一区二区三区免费| 精品国产国产综合精品| 精品一区二区成人精品| 这里只有视频精品| 成人免费观看视频在线观看| 网站黄在线观看| 精品久久中文字幕| 欧美国产中文字幕| 三级黄色片免费看| 国产福利小视频| 欧美精品色综合| 日韩中文字幕二区| a v视频在线观看| 国产亚洲一区二区三区| 精品国一区二区三区| 日本a级片免费观看| 久久日韩粉嫩一区二区三区| 久久精品色欧美aⅴ一区二区| 日本在线观看一区二区| 久久一级免费视频| 欧美性videos高清精品| 成人写真视频福利网| 国产成人一区二区三区别| 丰满人妻一区二区三区四区53| 国产亚洲视频中文字幕视频| 亚洲成人av免费观看| 午夜日韩在线电影| 日本人体一区二区| 国产农村妇女精品| 成人av在线播放观看| 亚洲精品国久久99热| 国产在线精品一区| www久久久com| 久久偷看各类女兵18女厕嘘嘘| 99中文字幕在线| 91亚洲精品久久久蜜桃| 国产精品综合网站| 中文字幕视频在线播放| 欧美成人精品1314www| 久久久久久久久久久久91| 麻豆成人久久精品二区三区红| 欧美老年两性高潮| 国产91在线亚洲| 欧美在线 | 亚洲| 久久久成人精品| aa片在线观看视频在线播放| 国产日韩欧美a| 国产精品污www一区二区三区| 中文字幕乱伦视频| 国产午夜精品免费一区二区三区| 亚洲最大成人网站| 欧美日韩美女在线观看| 在线观看污视频| 一区在线观看免费| 国产精品久久久影院| 国产在线精品一区二区三区不卡|