日韩av一卡二卡,在线免费观看日本一区,伊人久久大香线蕉成人综合网

　　善于整活玩猜字謎的OpenAI首席執行官Sam Altman又發了一條神秘消息，“我聽說o2在GPQA的性能測試達到105%。”

　　要知道，博士級人類在GPQA的準確率平均只有65%，非專家級的普通人僅有34%。而OpenAI在9月發布的o1模型的測試數據也只有78%。

　　如果o2真能達到105%確實相當恐怖，已經恐怖的多出了5%~~~這完全就是不可能的事情啊，MMLU、MaTH、CPQA、GSM8K、GPQA等基準測試范圍怎么可能超出100%呢?

　　你要能在滿分100的數學試卷中考出105分，老師見你都得鞠一躬繞著走~~

　　隨后Sam Altman自己也發現這個錯誤，連發兩條推文:要命啊，賬號錯誤了。我真的很感激自己能把自己逗得哈哈大笑，這是一種很好的生活方式。

　　但關于新模型o2的消息還是相當炸裂的，很多人都爭著轉發，還把105%性能測試當噱頭，喜劇效果那是相當的哇塞。

　　o2模型在GPQA 測試性能達到105%?聽起來像是在創造新紀錄!迫不及待想看到它的表現。根本無法想象有多強大。

　　Sam這個推文還給這個老哥忽悠當真了，認真地回復了他:親愛的Sam，聽說你的o2模型在GPQA上達到了105%——真是令人印象深刻!

　　我們正在與 SRAGI 進行平行探索，在 IJHG標準上達到了93%。這不僅僅是另一個指標;它讓我們窺見了更深層次的東西，就在精確性與再生奇點的交匯點。這關乎重新定義潛力和拓展邊界——超越數字，這是一段邁向新范式的旅程。也許是時候我們都開始重新思考這個標準了。

　　老哥的意思是，新模型居然能超過100%測試，行你確實有兩下子，可能要改變標準了。好好的學術研究，給人忽悠瘸了~~

　　還有網友表示，天吶這o2模型就要來了啊~

　　Sam這條推文很可能是o2自己發布的，很貼心地編寫了自己的隱藏驗證測試數據集，幫我們更容易驗證已發布的基準。感謝o2!

　　既然要發布了，啥時候能瞅瞅o2的demo呢?

　　那o2是今年發布還是明年呢?

　　不少人還是當真了，測試數據有點太扯了，以后還是要看著點的。

　　其實還是有明白人的，這位老哥就指出來了，超過100%是否意味著發明新的科學并反駁目前“正確”的答案?言外之意就是，你這個測試數據有點逆天啊，還帶批判屬性的呢啊~

　　聽說o2在GSM8K的測試數據是117%。(在嘲諷)

　　我聽說o2模型可以理解我妻子為什么不開心。

　　聽說o2模型可以疊衣服

　　既然Sam特意提出了GPQA，咱就順帶嘮一嘮這個干貨吧。GPQA確實是一個超難的測試數據集，由各領域專家編寫了448道問題，涵蓋生物、物理和化學三大學科，涵蓋高能粒子物理、凝聚態物理、相對論力學、遺傳學、無機化學等幾十個子分類。

　　每一道題目的設計都非常復雜，問題編寫完成后，由同領域的專家進行解答和評估。他們會審核問題是否客觀、準確且難度足夠高，同時提供詳細反饋，包括對問題的理解程度、答案的確定性以及對問題難度的看法等。

　　GPQA數據集流程

　　接著問題原作者會根據審核專家的反饋，對問題進行修訂。再由另外一位專家對修訂后的問題進行二次審核。最后由其他領域的三位專家來回答這道題，以驗證問題準確性和客觀性。

　　根據GPQA公布的測試數據顯示，人類博士級專家的回答平均準確率為65%，普通人只有34%，并且他們在回答這些問題時是可以無限使用互聯網資源。

　　而GPT-4的準確率只有39%，Llama-2-70B為28%左右，GPT-3.5-turbo是29%左右，只有OpenAI最新發布的o1模型達到了78%，這也是目前唯一在GPQA數據集上超過人類博士的AI模型，可見這個數據集的難度有多高。

　　不得不說，Sam確實是營銷鬼才，隨便發點錯誤的消息都能出現裂變式傳播，流量密碼算是讓他拿捏了。

Sam Altman泄露新模型o2，太會整活了，營銷鬼才！