近日,Perplexity 推出了一種新型安全系統(tǒng) BrowseSafe,旨在保護 AI 瀏覽器代理免受網(wǎng)絡內(nèi)容操控的威脅。該系統(tǒng)聲稱其檢測 Prompt 注入攻擊的成功率達到了91%,超過了當前市場上其他解決方案的表現(xiàn)。例如,PromptGuard-2僅能檢測到35% 的攻擊,而大型前沿模型如 GPT-5的檢測率為85%。此外,BrowseSafe 的運行速度足夠快,能夠?qū)崿F(xiàn)實時監(jiān)測。
AI 瀏覽器代理的廣泛使用也帶來了新的安全隱患。今年早些時候,Perplexity 推出了 Comet,這是一款集成 AI 代理的網(wǎng)絡瀏覽器。這些代理能夠像用戶一樣瀏覽網(wǎng)站,進行諸如電子郵件、銀行和企業(yè)應用等認證會話操作。這種高權(quán)限的訪問讓惡意攻擊者有機會將危險指令隱藏在網(wǎng)頁中,從而引導代理執(zhí)行不當行為,比如將敏感信息發(fā)送到外部地址。
隨著對安全問題的深入分析,Perplexity 發(fā)現(xiàn)現(xiàn)有的評估基準如 AgentDojo 并不足以應對這些復雜的網(wǎng)絡攻擊。這些基準通常依賴簡單的提示,無法覆蓋現(xiàn)實世界中復雜的網(wǎng)絡內(nèi)容,因此攻擊者能夠輕易隱藏他們的惡意代碼。
為此,Perplexity 創(chuàng)建了 BrowseSafe Bench,以三個具體維度定義網(wǎng)絡攻擊的范圍:攻擊類型、注入策略和語言風格。這一基準特別注重 “難以檢測的內(nèi)容”,即那些看似無害但可能被誤認為是攻擊的復雜內(nèi)容。通過使用一種專家混合架構(gòu),BrowseSafe 能夠在不影響用戶體驗的前提下并行進行安全掃描。
然而,評估中也揭示了一些問題。例如,針對多語言攻擊的檢測率下降至76%。此外,攻擊者藏匿在 HTML 評論中的內(nèi)容比在顯性區(qū)域(如頁面底部)中隱藏的內(nèi)容更容易被檢測到。Perplexity 的三層防御策略通過快速分類器和基于推理的前沿大語言模型形成了完整的保護機制。
盡管 BrowseSafe 在大多數(shù)情況下表現(xiàn)出色,但仍有近10% 的攻擊能夠繞過該系統(tǒng),顯示出網(wǎng)絡環(huán)境的復雜性和攻擊手法的不斷演變。因此,Perplexity 將其基準、模型和研究論文公開,旨在為 AI 代理在網(wǎng)絡中的安全交互提供更好的保障。


產(chǎn)品與服務
聯(lián)系站長
關(guān)于我們