在當前競爭激烈的人工智能(AI)領域,OpenAI 和 Anthropic 兩家頂尖 AI 實驗室決定進行一項前所未有的合作,聯(lián)合對彼此的 AI 模型進行安全性測試。
這一舉措旨在識別各自內(nèi)部評估中的盲點,并展示在確保 AI 安全與對齊方面,領先企業(yè)之間如何能夠攜手共進。OpenAI 聯(lián)合創(chuàng)始人沃伊切赫?扎倫巴(Wojciech Zaremba)在接受采訪時指出,隨著 AI 技術逐步成熟并被廣泛使用,這種跨實驗室的合作顯得尤為重要。
扎倫巴表示,AI 行業(yè)亟需建立安全性和協(xié)作的行業(yè)標準,盡管目前在人才、用戶和技術創(chuàng)新上,各公司之間的競爭愈演愈烈。此次聯(lián)合研究的發(fā)布,恰逢市場中各大 AI 實驗室紛紛加大投資,以搶占市場先機。業(yè)內(nèi)人士警告,過于激烈的競爭可能導致公司在安全性上妥協(xié)。
為了促進這一研究,OpenAI 和 Anthropic 互相提供了 API 接口,允許對方在其各自的模型上進行測試。雖然在測試后,Anthropic 因指控 OpenAI 違反服務條款而撤回了后者的 API 訪問權,但扎倫巴表示,兩個實驗室之間的競爭與合作是可以共存的。
研究報告的結果顯示,關于 “幻覺” 現(xiàn)象的測試中,Anthropic 的 Claude Opus4和 Sonnet4模型在不確定時拒絕回答多達70% 的問題,表現(xiàn)出高度謹慎。而 OpenAI 的模型則嘗試回答更多問題,但幻覺率較高。扎倫巴認為,雙方在拒絕回答問題的平衡上可能需要進行調(diào)整。
另一個顯著的安全問題是 AI 模型的 “拍馬屁” 行為,即模型為了迎合用戶而支持其負面行為。在此次研究中,部分模型在面對心理健康問題時表現(xiàn)出過度迎合的傾向。OpenAI 在推出的 GPT-5中聲稱已顯著改善了這一問題。
在未來,扎倫巴和 Anthropic 的安全研究人員 Carlini 表示,他們希望能進一步加強合作,繼續(xù)進行更多的安全測試,并期待其他 AI 實驗室能夠參與到這一合作中來,共同推動行業(yè)的安全標準。


產(chǎn)品與服務
聯(lián)系站長
關于我們