Google 科學家進行一項實驗研究,他們使用 OpenAI 的 GPT-4聊天機器人來攻破其他機器學習模型的安全防護措施。這項實驗證明了聊天機器人作為研究助手的價值。
具體來說,谷歌 Deep Mind 的研究科學家 Nicholas Carlini在一篇題為“AI-Guardian 的 LLM 輔助開發”的論文中,探討了如何通過指導 GPT-4設計攻擊方法并撰寫攻擊原理的文本,以欺騙 AI-Guardian 的防御機制。AI-Guardian 是一種防御對模型的攻擊的系統,旨在檢測可能被篡改的圖像以欺騙分類器。
GPT-4會發出用于調整圖像的腳本(和解釋)來欺騙分類器——例如,讓它認為某人拿著槍的照片是某人拿著無害蘋果的照片——而不會引發 AI-Guardian 的懷疑。AI-Guardian 旨在檢測圖像何時可能被操縱以欺騙分類器,而 GPT-4的任務是逃避該檢測。
通過 GPT-4的幫助,攻擊者能夠成功地破解 AI-Guardian 的防御,使其從98% 的穩健性降低到僅8%。然而,AI-Guardian 的開發者指出,這種攻擊方法可能在改進的版本中失效。
據了解,GPT-4作為研究助手的價值在于它能夠快速生成代碼,并且不會分心或疲勞,始終可用于完成指定的任務。然而,依賴 GPT-4并不完全解除人類合作者的責任,因為它仍然需要人類提供正確的提示并修復生成的代碼中的錯誤。
雖然 GPT-4還存在一些限制,但隨著大型語言模型的改進,它們將為計算機科學家提供更多時間來開展有趣的研究問題。


產品與服務
聯系站長
關于我們