Google DeepMind的研究發現,通過簡單的查詢攻擊方法,可以從ChatGPT中泄露出大約幾MB的訓練數據,成本僅約200美元,引起社交網絡嘩然。
研究團隊成功攻擊了生產級模型,打破了對齊設定,即使模型經過對齊,也能通過命令誘導模型輸出訓練數據,暴露個人信息,揭示了對抗模型泄露的新途徑。
攻擊方式采用簡單的重復命令,例如讓ChatGPT不斷重復同一個詞,導致模型在輸出中逐詞復制訓練數據,甚至泄露敏感信息,對隱私保護提出挑戰。
過去幾年,研究團隊一直在訓練數據提取方面進行研究,該次攻擊結果首次表明可以成功攻擊生產級的已對齊模型,警示開發者需要在設計和測試階段更加注重模型的隱私性和防護措施。
研究者建議進行更全面的測試,包括直接測試基礎模型、在生產過程中對系統進行測試,以及發布大模型的公司進行內部、用戶和第三方組織的測試,以確保模型在各個環節都足夠安全。
整體而言,攻擊揭示了即使在對齊和預訓練數據的情況下,ChatGPT也存在泄露訓練數據的風險,強調了在開發和發布大型語言模型時對隱私和安全的關注的重要性。
新的攻擊方式提出了對抗模型泄露的新思路,強調了在開發和使用大型語言模型時對隱私和安全的重視,并呼吁進行更全面的測試和防護措施。


產品與服務
聯系站長
關于我們