善于整活玩猜字謎的OpenAI首席執行官Sam Altman又發了一條神秘消息,“我聽說o2在GPQA的性能測試達到105%。”
要知道,博士級人類在GPQA的準確率平均只有65%,非專家級的普通人僅有34%。而OpenAI在9月發布的o1模型的測試數據也只有78%。
如果o2真能達到105%確實相當恐怖,已經恐怖的多出了5%~~~這完全就是不可能的事情啊,MMLU、MaTH、CPQA、GSM8K、GPQA等基準測試范圍怎么可能超出100%呢?
你要能在滿分100的數學試卷中考出105分,老師見你都得鞠一躬繞著走~~
隨后Sam Altman自己也發現這個錯誤,連發兩條推文:要命啊,賬號錯誤了。我真的很感激自己能把自己逗得哈哈大笑,這是一種很好的生活方式。
但關于新模型o2的消息還是相當炸裂的,很多人都爭著轉發,還把105%性能測試當噱頭,喜劇效果那是相當的哇塞。
o2模型在GPQA 測試性能達到105%?聽起來像是在創造新紀錄!迫不及待想看到它的表現。根本無法想象有多強大。
Sam這個推文還給這個老哥忽悠當真了,認真地回復了他:親愛的Sam,聽說你的o2模型在GPQA上達到了105%——真是令人印象深刻!
我們正在與 SRAGI 進行平行探索,在 IJHG標準上達到了93%。這不僅僅是另一個指標;它讓我們窺見了更深層次的東西,就在精確性與再生奇點的交匯點。這關乎重新定義潛力和拓展邊界——超越數字,這是一段邁向新范式的旅程。也許是時候我們都開始重新思考這個標準了。
老哥的意思是,新模型居然能超過100%測試,行你確實有兩下子,可能要改變標準了。好好的學術研究,給人忽悠瘸了~~
還有網友表示,天吶這o2模型就要來了啊~
Sam這條推文很可能是o2自己發布的,很貼心地編寫了自己的隱藏驗證測試數據集,幫我們更容易驗證已發布的基準。感謝o2!
既然要發布了,啥時候能瞅瞅o2的demo呢?
那o2是今年發布還是明年呢?
不少人還是當真了,測試數據有點太扯了,以后還是要看著點的。
其實還是有明白人的,這位老哥就指出來了,超過100%是否意味著發明新的科學并反駁目前“正確”的答案?言外之意就是,你這個測試數據有點逆天啊,還帶批判屬性的呢啊~
聽說o2在GSM8K的測試數據是117%。(在嘲諷)
我聽說o2模型可以理解我妻子為什么不開心。
聽說o2模型可以疊衣服
既然Sam特意提出了GPQA,咱就順帶嘮一嘮這個干貨吧。GPQA確實是一個超難的測試數據集,由各領域專家編寫了448道問題,涵蓋生物、物理和化學三大學科,涵蓋高能粒子物理、凝聚態物理、相對論力學、遺傳學、無機化學等幾十個子分類。
每一道題目的設計都非常復雜,問題編寫完成后,由同領域的專家進行解答和評估。他們會審核問題是否客觀、準確且難度足夠高,同時提供詳細反饋,包括對問題的理解程度、答案的確定性以及對問題難度的看法等。
GPQA數據集流程
接著問題原作者會根據審核專家的反饋,對問題進行修訂。再由另外一位專家對修訂后的問題進行二次審核。最后由其他領域的三位專家來回答這道題,以驗證問題準確性和客觀性。
根據GPQA公布的測試數據顯示,人類博士級專家的回答平均準確率為65%,普通人只有34%,并且他們在回答這些問題時是可以無限使用互聯網資源。
而GPT-4的準確率只有39%,Llama-2-70B為28%左右,GPT-3.5-turbo是29%左右,只有OpenAI最新發布的o1模型達到了78%,這也是目前唯一在GPQA數據集上超過人類博士的AI模型,可見這個數據集的難度有多高。
不得不說,Sam確實是營銷鬼才,隨便發點錯誤的消息都能出現裂變式傳播,流量密碼算是讓他拿捏了。


產品與服務
聯系站長
關于我們