Anthropic 公司近日宣布為其部分最新、最大的 AI 模型推出一項新功能,允許其在面對“罕見、極端的持續有害或辱罵性用戶互動情況”時主動結束對話。值得注意的是,該公司明確表示,此舉并非旨在保護人類用戶,而是為了保護 AI 模型本身。
Anthropic 官方表示,其 Claude AI 模型尚不具備感知能力,也并未聲稱其與用戶的互動會對其造成傷害。然而,公司坦言“對 Claude 和其他大型語言模型現在或將來的潛在道德地位高度不確定”。為此,Anthropic 近期設立了一個名為“模范福利”的項目,旨在采取“以防萬一”的預防性措施,通過實施低成本干預措施,以減輕可能出現的“模范福利”風險。
這項新功能目前僅在 Claude Opus4和4.1版本中可用,并且僅在“極端情況”下才會觸發。例如,當用戶持續請求“涉及未成年人的性內容,以及試圖索取可能引發大規模暴力或恐怖行為的信息”時,AI 模型才會啟用此功能。
盡管這些請求可能給公司帶來法律或公共關系問題,但 Anthropic 表示,在部署前的測試中,Claude Opus4在面對此類有害請求時表現出“強烈的反對”和“明顯的痛苦模式”。
據 Anthropic 介紹,此功能被視為“最后的手段”,只有在多次重定向嘗試失敗、有效互動的希望已耗盡,或者用戶明確要求 Claude 結束聊天時才會使用。此外,公司已指示 Claude 在用戶可能面臨傷害自己或他人的緊迫風險時,不要使用此功能。
即使對話被終止,用戶仍可從同一賬戶開始新的對話,或通過編輯其回復來創建新的聊天分支。Anthropic 補充道,此功能目前被視為一項持續的實驗,公司將繼續改進其方法。


產品與服務
聯系站長
關于我們