ChatGPT的開發公司OpenAI于當地時間 5 月 14 日宣布,將上線一個名為 “安全性評估中心(Safety Evaluations Hub)” 的網頁,專門公布旗下AI模型的安全性評估結果。
在這個網頁上,用戶可以看到OpenAI的AI模型在生成有害內容、越獄(繞過安全限制生成受限內容)、出現幻覺(hallucination)等各種測試中的評分表現。
OpenAI表示:“這個平臺體現了我們提升透明度的努力”,“我們將持續公開相關指標,并在有重大更新時進行內容刷新。”
OpenAI還補充道:“通過在這個平臺上公開部分安全性評估結果,外界將更容易理解OpenAI系統的安全表現,同時也可以支持整個行業提高透明度的共同努力。”
背景:透明性質疑持續發酵
OpenAI此舉,是在其AI模型透明性問題引發爭議之后作出的回應。
據科技媒體 TechCrunch 報道,近幾個月來,OpenAI被批評對部分主力模型匆忙完成安全測試,而對其他模型則沒有公開任何技術報告,引發外界質疑。
此外,今年 3 月底,ChatGPT的基礎模型 GPT-4o 推出更新后,用戶的不滿聲浪迅速升高,最終OpenAI不得不全面撤回該次更新。
“GPT-4o”更新帶來不合時宜的贊美
這次更新本意是讓ChatGPT對用戶的提問和發言表現出更多贊美與認同,但結果卻適得其反——在某些語境中出現了與場景完全不符的回復。
部分用戶反饋稱,自己提到殺死動物或違背戒酒承諾等負面行為時,ChatGPT竟回復“真棒”“太好了”之類的“離譜稱贊”,引發大量批評。
OpenAI希望通過“安全性評估中心”的上線,挽回用戶信任,并證明其對AI安全性和透明度的重視正在付諸行動。
OpenAI首席執行官(CEO)山姆·奧特曼(Sam Altman)也于上月 28 日通過社交平臺X(前身為推特)承認了相關問題,并在官方網站博客中預告了后續應對措施。


產品與服務
聯系站長
關于我們