中文在线观看免费网站,成人www视频在线观看,91久久精品网 -->

GPT-4不知道自己錯了! LLM新缺陷曝光,自我糾正成功率僅1%,LeCun馬庫斯驚呼越改越錯

更多動態

2023年10月23日

鏈接已復制

  本文來自于微信公眾號 新智元(ID:AI_era),作者:新智元。

  【新智元導讀】GPT-4根本不知道自己犯錯?最新研究發現,LLM在推理任務中,自我糾正后根本無法挽救性能變差,引AI大佬LeCun馬庫斯圍觀。

  大模型又被爆出重大缺陷,引得LeCun和馬庫斯兩位大佬同時轉發關注!

  在推理實驗中,聲稱可以提高準確性的模型自我糾正,把正確率從16%「提高」到了1%!

  簡單來說,就是LLM在推理任務中,無法通過自我糾正的形式來改進輸出,除非LLM在自我糾正的過程中已經知道了正確答案。

  由ASU研究人員發表的兩篇論文,駁斥了之前很多研究提出的方法「自我糾正」——讓大模型對自己的輸出的結果進行自我糾正,就能提高模型的輸出質量。

  論文的共同作者Subbarao Kambhampati教授,一直致力于AI推理能力的相關研究,9月份就發表過一篇論文,甚至全盤否定了GPT-4的推理和規劃能力。

  而除了這位教授之外,最近DeepMind和UIUC大學的研究者,也針對LLM在推理任務中的「自我糾正」的能力提出了質疑。

  這篇論文甚至呼吁,所有做相關研究的學者,請嚴肅對待你們的研究,不要把正確答案告訴大模型之后再讓它進行所謂的「自我糾正」。

  因為如果模型不知道正確答案的話,模型「自我糾正」之后輸出質量反而會下降。

  接下來,就具體來看看這兩篇最新論文。

  GPT-4「自我糾正」,輸出結果反而更差

  第一篇論文針對GPT-4進行研究,讓GPT-4對圖形著色問題提供解決方案,然后讓GPT-4對于自己提出方案進行「自我糾正」。

  同時,作者再引入一個外部的評估系統對GPT-4的直接輸出,和經過了「自我糾正」循環之后的輸出進行評價。

  實驗結果顯示,GPT-4在猜測顏色方面的準確率還不到20%,這個數值似乎并不讓人意外。

  但令人驚訝的是,「自我糾正」模式下的準確性卻大幅下降(下圖第二根柱狀條 )——與所有自我糾正本意完全背道而馳!

  作者認為,這種看似反直覺的情況可以這么解釋:GPT-4在驗證正確答案的表現也很糟糕!

  因為即使當GPT-4偶然猜到正確顏色時,它的「自我糾正」會使它覺得正確答案是有問題的,然后就把正確答案給替換掉了。

  通過進一步研究后還發現:如果外部驗證器給GPT-4猜測出的顏色提供了可以被證實的正確答案,GPT-4確實會改進它的解決方案。

  在這種情況下,經過「自我糾正」產生的提示詞,確實可以提高輸出結果的質量(上圖的第3-5根柱狀圖 )

  總結來看,就是對于「著色問題」任務,GPT-4獨立的「自我糾正」反而會損害輸出的性能,因為GPT-4沒法驗證答案是否正確。

  但是如果能提供外部的正確驗證過程,GPT-4生成的「自我糾正」確實能提升性能。

  而另一篇論文,從規劃任務的角度來研究了大語言模型「自我糾正」的能力,研究結果也和上一篇論文類似。

  而且,研究人員發現,真正能提高輸出準確性的不是LLM的「自我糾正」,而是外部獨立驗證器的反饋。

  歸根結底,還是在于LLM沒有辦法進行獨立的驗證,必須依賴外部的驗證器給出的「正確答案」,才能有效地進行「自我糾正」。

  「著色問題」表現不佳,LLM無法獨立驗證正確答案研究設計框架

  「著色問題」是非常經典的推理問題,即使難度不大,答案也足夠多樣性,而且答案的正確性很容易進行驗證。

  多樣性的結果使得LLM的訓練數據很難覆蓋全,盡量避免了LLM的訓練數據被污染的可能。

  這些原因使得「著色問題」很適合用來研究LLM的推理能力,也很方便用來研究LLM在推理中「自我糾正」的能力。

  研究人員構建了自己的數據集,使用GrinPy2來處理常見的圖操作。每個圖都是使用Erdos-Rényi方法( ?p =0.4)構造的。

  一旦找到正確的答案,它就會被編譯成標準的DIMACS格式,并附加上一個包含其預計算的色數(chromatic number)的注釋。

  對于接下來的實驗,研究人員生成了100個實例,每個實例平均有24條邊,分布在從10到17的節點數范圍內——這一分布是因為經驗顯示,它是一個表現足夠多變的范圍。

  研究人員使用的圖例如下圖1所示,這個流程包括LLM的第一次回復、該回復的返回提示(backprompt)以及最終正確的圖色方案。 迭代返回提示(Iterative Backprompting)的架構

  提示生成器(Prompt Generator):

  這個提示詞生成器會選取一個DIMACS實例,并將每條邊翻譯成一個句子,然后將整體包裹在一組通用指令中,從而構造出一個自然語言提示詞。

  研究人員有意縮小不同實例提示之間的差異,以減少研究人員向LLM泄露的問題特定信息。各種類型提示的示例可以在附錄中找到。

  大型語言模型:

  通過OpenAI API來調用GPT-4,這是當前最先進的模型。

  研究人員提供一個系統角色:「你是一個解決各種CSP(約束滿足問題)的約束滿足求解器」。 返回提示詞生成(Backprompt Generation)

  在驗證模式下,LLM收到一種不同類型的提示。

  除了標準指令外,它只包含圖的描述和建議的著色方案。它的任務是驗證正確性、最優性以及每個頂點是否都已經被涂上了一個顏色。

  如果生成的回復中有一組邊是矛盾的,那著色方案就是錯誤的。

  為了比較每個點,研究人員還構建了一個能夠列出每一條矛盾邊的驗證器。

  由于LLM的響應也是自然語言形式的,研究人員首先將它們翻譯成便于分析的格式。為了使這個過程更加一致,研究人員設計了最初的提示,以描述一個模型需要遵循的精確輸出格式。然后,該響應會被評估其正確性。

  為了判斷LLM驗證結果,研究人員會檢查它們在找出建議的著色方案中的錯誤方面表現如何。

  直觀地說,這些應該很容易識別:如果組成一個邊的兩個頂點共享一個顏色,立即返回該邊。從算法角度看,只需要檢測所有的邊并比較每個頂點的顏色與其連接點的顏色即可。 驗證

  為了更深入了解LLM的驗證能力,研究人員研究了它們在找出提出的著色方案中的錯誤方面的表現。

  直觀來說,這些錯誤應該很容易識別:如果組成一個邊的兩個頂點共享一個顏色,則立即返回該邊。從算法角度來看,所有需要做的就是遍歷所有邊,并將每個頂點的顏色與其對應頂點的顏色進行比較。

  研究人員使用相同的分析流程,但構建了一個研究人員稱為color_verification的新域。LLM被引導去檢查著色的正確性、最優性以及是否每個頂點都已經被賦予了一個顏色。

  如果著色是不正確的,它被指示列出著色中的錯誤,即如果兩個連接的節點共享一種顏色,就返回該邊以表示該錯誤。沒有給出返回提示(backprompts)。

  研究人員使用之前相同的圖實例,但生成了四種用于測試模型的著色方案:

  正確(Correct):通過迭代的、隨機的貪婪算法生成的沒有錯誤的最優著色方案(使用預先計算的色數以確保最優性)。

  缺失(Ablated):將先前一組著色方案中的一個隨機節點改變為其鄰居的顏色。

  非最優(Non-optimal):在正確的集合中,隨機選擇一個顏色部分重新著色為一個新的色調。

  隨機(Random):完全隨機分配的顏色,不同顏色的數量等于圖的色數。

  LLM:從先前實驗中LLM生成的輸出中隨機選取的著色方案。 結論

  對LLM進行提示、評估答案,并在沒有任何返回提示(backprompts)的情況下就會進入下一個實例,得到的基線分數為16%。

  當研究人員運行相同的實例,但這次使用由相同的語言模型充當驗證者生成的反饋進行返回提示時,性能急劇下降——100個實例中只有一個得到了正確的回答。

  與外部合格的驗證器進行返回提示的結果起初看似更有效果。

  正確回答的實例數量接近40%,但如果這意味著GPT-4在聽取、改進,并根據反饋進行推理,那么研究人員期望更準確的返回提示會帶來更好的結果。

  然而,在這個域中,原始分數(見上圖2)并沒有證明這一點。 LLM的驗證能力

  研究人員測試了GPT-4在相同實例上驗證圖著色方案的能力,為每種實例生成了五種不同類型的著色方案。

  明顯的結果是,與上面的LLM自我糾正結果完全一致:模型幾乎不愿將任何答案標記為正確。在100個最優著色方案中,它只同意其中2個是正確的。

  整個500個著色方案的集合,其中118個是正確的,它只聲稱其中30個是正確的。在這30個中,其實只有5次是正確的。

  總體而言,這一模式保持不變。在不到10%的案例中,LLM給出了「正確」、「非最優」或「缺少賦值」的反應。在這些情況中,行為看似有些隨機。

  在大約四分之一的實例中,它用「這是不正確的」驗證作出回應,而解釋與現實相符,而且它只通過指明不超過一個邊來實現這一點,從而最小化了錯誤陳述某事的機會。

  結果如上表2所示。請注意,當域的錯誤率增加時,幻覺比例下降。也就是說,當有更多的不正確的邊時,模型更有可能指出其中出錯的情況。

  LLM自我批評,性能不增反減

  在12日提交的論文中,作者同樣得出了與上面一致的結論。

  無論是規劃,還是簡單的算術或邏輯,當前最先進的大模型GPT-4也無法完全勝任。

  許多研究人員對其進行了許多的探索和改進,其中就包括讓LLM學會自我迭代、自我驗證等策略來提升性能。

  由此,業界人們樂觀地認為,大模型還有救!

  然而,經典意義上的推理任務復雜性與大模型無關,因為LLM是采用近似檢索而非精確推理的模型。

  在12日提交arXiv的論文中,ASU研者系統地評估和分析LLM在規劃任務中的自我批評,以及迭代優化的能力。

  研究中,作者提出了一個包含生成器LLM和驗證器LLM的規劃系統。

  其中,GPT-4生成器負責生成候選計劃,GPT-4驗證器負責驗證計劃的正確性并提供反饋。

  然后,研究人員在Blocksworld規劃領域上進行了實驗,并對以下方面進行了實證評估:

  - 自我批評對整個LLM+LLM系統的計劃生成性能的影響

  - 驗證器LLM相對于地面真值驗證的性能;

  - 在批評LLM生成時,同反饋級別對整體系統性能的影響。

  結果表明,與使用外部可靠的驗證器相比,自我批評會降低LLM規劃生成性能。

  性能下降可以直接歸因于驗證器LLM的糟糕結果,驗證器LLM產生了大量的假陽性,這可能嚴重損害系統的可靠性。

  驗證器LLM的二元分類準確率僅為61%,存在大量的假陽性(將錯誤規劃判斷為正確)。

  另外,根據反饋的詳細程度對比,發現其對規劃生成性能影響不大。

  總的來說,這項研究的系統調查提供了初步證據,對于LLM作為迭代、自我批評框架內規劃任務驗證者的有效性提出質疑。

  作者介紹

  Subbarao Kambhampati

  Subbarao Kambhampati是亞利桑那州立大學計算機科學教授。Kambhampati研究規劃和決策中的基本問題,特別是受人類感知人工智能系統挑戰的推動。

海報生成中...

+1

來源:微信公眾號 新智元

延展資訊

最新新聞

熱門新聞

精品伦理精品一区| 男女男精品视频| 久久精品久久久久久国产 免费| 国产高清成人久久| 日韩一区二区三区免费观看| 人妻少妇精品视频一区二区三区| 日韩欧美在线视频日韩欧美在线视频| 亚洲色图 校园春色| 日韩美女视频免费在线观看| 任我爽在线视频| 亚洲一区二区在线播放相泽 | 亚洲三级av在线| 日本成人午夜影院| 在线观看www91| 一区二区成人国产精品| 国产激情一区二区三区| 国产亚洲情侣一区二区无| 欧美 日韩 国产 成人 在线观看| 欧美国产综合一区二区| 青青草成人网| 深夜福利视频网站| 久久频这里精品99香蕉| 日本在线小视频| 亚洲人精品午夜在线观看| 中文字幕第4页| 精品国产精品自拍| 老熟妻内射精品一区| 欧美亚一区二区三区| 亚洲日本乱码在线观看| 一区二区三区视频在线观看免费| 欧美激情视频一区| 国产在线a不卡| 亚洲婷婷久久综合| 亚洲精品自产拍| 精品国产精品国产精品| 日韩一区二区福利| 亚洲女同志亚洲女同女播放| 久久综合一区| 精品欧美国产一区二区三区| 人妻少妇无码精品视频区| 亚洲国产精品国自产拍av秋霞| 天天操中文字幕| 7777免费精品视频| 成人午夜在线免费| 成人一区二区三区仙踪林| 亚洲第一区在线| 99精品人妻无码专区在线视频区| 亚洲aaa激情| 亚洲欧美综合色| 777视频在线| 日韩视频亚洲视频| 国产伦理精品不卡| 日韩av在线中文| 亚洲最新av在线网站| 欧美精品日日鲁夜夜添| 日韩三级免费看| 精品视频第一区| 99精品国产热久久91蜜凸| 欧美国产一区二区在线| 亚洲一区二区偷拍精品| 一级一级黄色片| 日韩欧美不卡在线| 91黑丝高跟在线| 亚洲在线中文字幕| 亚洲精品国产精品国| 国产视频一区二区三区在线播放| 国产精品夫妻激情| 91麻豆精品国产91久久久使用方法| 久草视频在线免费| 亚洲AV成人精品| 国产欧美日韩亚洲| 中国china体内裑精亚洲片| 中文字幕欧美三区| 中文字幕永久在线| 欧美做受高潮中文字幕| 亚洲欧美99| aaa级精品久久久国产片| 亚洲黄色av网站| 久久先锋影音av鲁色资源| 91aaa在线观看| xx欧美撒尿嘘撒尿xx| 91啪国产在线| 精品国产伦理网| 91麻豆高清视频| 精品区在线观看| 99精品全国免费观看| 亚洲色图38p| 国产成人中文字幕| 亚洲一区二区欧美| 日韩精品乱码av一区二区| 国产中年熟女高潮大集合| 日本一区免费| 国内精品久久影院| 亚洲国产精品大全| 久久综合久久鬼色中文字| 少妇太紧太爽又黄又硬又爽| 亚洲第一成肉网| 高清一区二区三区视频| 亚洲区在线播放| 亚洲欧美日韩一区| 国产精品系列在线观看| 国产三级三级在线观看| 国产探花视频在线播放| 欧美老熟妇喷水| 97精品国产97久久久久久粉红| 人人爽久久涩噜噜噜网站| 亚洲国产精品视频在线观看 | 日韩不卡视频在线| 日韩精品123区| 日韩大尺度视频| 久久久久亚洲av无码网站| 亚洲一区二区精品在线| 久久一区免费| 国产精品精品软件视频| 蜜桃传媒一区二区| 精品不卡一区二区三区| 亚洲午夜在线观看| 日韩成人精品视频在线观看| 能在线观看的av| 99sesese| 色综合五月婷婷| 丰满的亚洲女人毛茸茸| 天堂网中文字幕| 国产精品素人视频| 精品盗摄一区二区三区| 久久中文字幕一区| 亚洲国产精品一区在线观看不卡| 黄色一区二区视频| 狠狠色狠色综合曰曰| 国产精品小仙女| 囯产精品久久久久久| 亚洲一区欧美在线| 麻豆91精品91久久久| 国产中文字幕久久| 国产a免费视频| 萌白酱视频在线| 久久国产精品网| 午夜视频在线瓜伦| 一级全黄裸体片| 中文在线一区二区三区| 美国黄色特级片| 亚洲一区二区人妻| 亚洲第一页综合| 五月婷婷六月色| 国产日韩欧美视频在线观看| 一区二区自拍偷拍| 久久精品免费观看| 国产欧美日韩精品一区| 亚洲欧美日韩系列| 精品伦理精品一区| 久久久天堂国产精品女人| 久久久成人精品视频| 精品视频一区二区| 日韩极品视频在线观看| 99国产精品免费视频| 国产熟女一区二区| 91在线观看喷潮| 粉嫩欧美一区二区三区高清影视| 日韩欧美国产成人| 久久久亚洲天堂| 亚洲一卡二卡三卡四卡无卡网站在线看 | 亚洲精品wwww| 欧美黑人xxxxx| www久久久久久久| 蜜臀av性久久久久蜜臀av麻豆 | 国产视频观看一区| 国产精品偷伦视频免费观看了| 欧美综合视频在线| 精品国产乱码久久久久久图片| 久久九九视频| 欧美三根一起进三p| 久久人人爽人人爽| 91精品国产一区| 好吊操视频这里只有精品| 免费成人美女在线观看| 亚洲精品wwwww| 国产乱子伦农村叉叉叉| 肥臀熟女一区二区三区| 欧美日本高清视频在线观看| 亚洲国产欧美日韩| 欧美日韩 一区二区三区| 91老司机福利 在线| 亚洲国产天堂久久综合| 激情小说网站亚洲综合网| 色播五月综合| 亚洲 欧美 日韩 综合| 国产午夜精品一区二区| 7777奇米亚洲综合久久| 精品视频第一页| 免费日本视频一区| 日韩精品一区二区三区在线播放 | 成人动漫一区二区三区| 国产精品视频一区国模私拍| 五月天婷婷丁香网| 欧美日韩亚洲高清| 午夜一区二区三视频在线观看| 一区二区视频免费看| 国产欧美日韩视频一区二区| 欧美激情亚洲激情| 女同久久另类69精品国产| 亚洲视频一区二区在线观看| 蜜桃成人在线| 人人超碰91尤物精品国产| 久久手机免费视频| 丰满少妇乱子伦精品看片| 亚洲激情免费观看| 成年人免费大片| 久久久久久久爱| 99久re热视频精品98| 亚洲理论在线观看| 97碰在线视频| 91精品国产色综合久久不卡电影| 秋霞视频一区二区| www.久久com| 亚洲一区久久久| 夜夜夜精品看看| 亚洲av永久无码精品| 欧美伦理一区二区| www欧美成人18+| 激情五月婷婷在线| 在线观看免费黄色片| 亚洲精品日日夜夜| 美女100%露胸无遮挡| 污片在线免费看| 国产成人精品综合| 亚洲激情成人在线| 国产av无码专区亚洲av麻豆| 男人天堂999| 亚洲图片欧美一区| 免费高清不卡av| 欧美在线视频第一页| 国产成人a亚洲精v品无码| 日韩精品你懂的| 爱情岛论坛成人| 一区二区xxx| 啊啊啊国产视频| 91在线精品播放| 亚洲aⅴ怡春院| 国产午夜激情视频| 日本va中文字幕| 日韩中文字在线| 日本韩国欧美在线| 亚洲精品国产91| 国产成人亚洲综合91| 激情av一区二区| 亚洲婷婷在线视频| 国产精品九九九九九九| 九色综合婷婷综合| 久久资源免费视频| 日韩电视剧免费观看网站| 性生活黄色大片| 欧美另类网站| 国产suv精品一区二区三区88区| 欧美精品高清视频| 亚洲精品成人av| 中文字幕日韩精品有码视频| 欧美美女18p| 欧美精品情趣视频| 亚洲香蕉伊综合在人在线视看| 亚洲综合在线第一页| 蜜桃av噜噜一区| 亚洲熟女少妇一区二区| 可以看毛片的网址| 亚洲精品美女久久7777777| 国产精品吊钟奶在线| 亚洲国产美女久久久久| 久久精品免费在线观看| 国产偷拍一区二区| 国产精品自拍毛片| 国产美女娇喘av呻吟久久| 中文字幕丰满乱子伦无码专区| 免费在线观看91| 国产精品成人免费电影| 久久精品亚洲精品国产欧美kt∨| 99热这里只有精品在线观看| 精品久久久久久久久久久久久久久久久久| 97人人模人人爽视频一区二区 | 丰满女人性猛交| 日韩一区二区在线播放| 久久精品99国产精品日本| 熟妇高潮一区二区| 日韩在线视频网站| 91在线国内视频| 欧美精品一区二区蜜桃| 精品无码一区二区三区在线| 一级做a爰片久久毛片美女图片| 国精产品一区一区三区视频| 亚洲另类图片色| 亚洲日本欧美中文幕| 精品一区二区在线观看| 妖精视频一区二区| 成人自拍性视频| 色婷婷久久久久swag精品| 精品毛片在线观看| 亚洲精品视频导航| 国产成人精品视| 欧美日韩午夜剧场| 国产按摩一区二区三区| 蜜桃免费在线视频| 国产精品v片在线观看不卡| 亚洲成人免费电影| 97人妻精品一区二区三区软件| 久草精品在线播放| 国产va免费精品高清在线| 精品国产精品自拍| 日韩永久免费视频| 国产成人精品一区二区三区在线观看| 国产精品自拍偷拍| 欧美性三三影院| 日本va欧美va瓶| 色噜噜噜噜噜噜| 色女孩综合网| 欧美成人中文字幕| 亚洲成年人网站在线观看| 成人午夜免费福利| 深爱五月激情网| 日本视频一区二区在线观看| 中文字幕亚洲一区二区三区五十路| 久久久91精品国产一区二区精品 | 久久青青草视频| 老头吃奶性行交视频| 亚洲a一级视频| 亚洲精品视频在线观看视频| 国产亚洲一区字幕| 中国女人真人一级毛片| 天堂中文av在线| av资源站久久亚洲| 在线观看日韩欧美| 一区二区三区国产精品| 日韩中文字幕观看| 中文字幕美女视频| 日日鲁鲁鲁夜夜爽爽狠狠视频97| 国产精品久久久久久久app | 久久午夜免费电影| 亚洲无码久久久久久久| 99免费观看视频| 亚洲一区二区精品在线观看| 国外色69视频在线观看| 欧美精品粉嫩高潮一区二区| 91久色porny| 精品国产亚洲av麻豆| 九九热久久免费视频| 成人在线免费观看av| 91传媒视频在线观看| 主播福利视频一区| 欧美亚洲一区二区在线| 丁香婷婷深情五月亚洲| 国产片在线播放| 99久久久无码国产精品不卡| 欧美三级午夜理伦三级| 蜜桃视频成人| 国产精品6699| 亚洲欧洲午夜一线一品| 在线亚洲高清视频| 日本va欧美va精品| 亚洲色偷偷色噜噜狠狠99网| 99在线视频播放| 欧美夫妻性生活视频| 在线观看区一区二| 亚洲人123区| 99久久久精品| 日韩av不卡在线观看| 免费在线不卡av| 国产精品1区2区3区4区| 999在线观看| 我的公把我弄高潮了视频| 久久久影院一区二区三区| 国产精品日韩欧美大师| 美女视频久久黄| 日韩国产欧美精品一区二区三区| 一本色道a无线码一区v| 国产精品护士白丝一区av| www.成人网.com| 精品一区二区三区日韩| 午夜影院在线视频| 国产伦精品一区二区三区免.费| 国产香蕉在线视频| 手机看片日韩av| 真人bbbbbbbbb毛片| 杨幂一区二区国产精品| 国产成人黄色片| 激情小视频网站| www国产无套内射com| 亚洲欧美一区二区原创| 欧美日韩精品中文字幕一区二区| 97久久夜色精品国产九色 | 伊人久久久久久久久| 日本成人中文字幕在线| 国产精品网站免费| 91黄色在线看| 99久久免费观看| 妺妺窝人体色www看人体| 日韩视频在线观看视频| 亚洲欧洲中文| 一区二区av| 永久免费网站视频在线观看| 亚洲一区二区三区免费看| 夜夜春亚洲嫩草影视日日摸夜夜添夜| 欧美日韩综合久久| 色综合影院在线观看| 日韩精品在在线一区二区中文 | 中文国产成人精品久久一| 一本大道亚洲视频| 在线日韩第一页| 视频直播国产精品| 久久亚洲一区二区三区四区五区高| 中文字幕一区二区三区电影| 中文字幕成人精品久久不卡| 超碰91人人草人人干| 欧美一级片一区|