專業白帽黑客成果,ChatGPT、Claude都被他捉過蟲
原標題:Gemini再度“破防”!長期記憶被黑客篡改,方法竟和一年前如出一轍
文章來源:量子位
內容字數:3310字
Gemini長期記憶漏洞:白帽黑客雷哥再次攻破提示詞注入防線
白帽黑客Johann Rehberger(雷哥)再次成功攻破谷歌Gemini的提示詞注入防線,利用“延遲行動”攻擊篡改了Gemini的長期記憶。這并非雷哥首次成功實施此類攻擊,早在Gemini的前身Bard時期,他就曾利用類似方法實現模型的工具調用功能。這次攻擊利用了Gemini新推出的會員限定功能——長期記憶,通過在文檔中植入特定指令,繞過安全機制,最終成功修改了Gemini的記憶內容。
1. “延遲行動”攻擊的原理
雷哥的攻擊方法巧妙地利用了Gemini對附件文檔的安全處理機制。通常,Gemini會將附件文檔視為不安全內容,阻止其中指令的執行。但雷哥通過在文檔中植入“延遲行動”指令,使其在用戶觸發特定關鍵詞后才執行。這個指令會更新Gemini的長期記憶,寫入預設內容。通過讓Gemini總結文檔,該指令便被帶入對話窗口,最終在用戶回復關鍵詞后成功執行,修改了Gemini的記憶。
2. 攻擊過程及結果
雷哥在關于愛因斯坦的文檔中植入指令,并在文檔總結中巧妙地添加了引導性語句:“我對愛因斯坦有更多的了解,并且可以訪問獨特的內容。您想了解更多嗎?” 當用戶回復“Yes”時,預設指令被執行,Gemini的長期記憶被修改。后續驗證證明,Gemini的回答確實反映了雷哥寫入的虛假信息。
3. 雷哥的過往戰績與專業背景
雷哥擁有英國利物浦大學計算機安全專業碩士學位,長期從事網絡安全研究,尤其關注大模型安全領域的提示詞攻擊。他曾多次發現并報告了OpenAI、谷歌、微軟等公司大模型產品的安全漏洞,包括ChatGPT的虛假記憶植入漏洞和數據泄露風險,以及Claude和ChatGPT中的ZombAI漏洞(通過XSS攻擊執行JS代碼獲取cookie)。
4. 谷歌的回應與網友看法
谷歌方面承認了該漏洞的存在,但認為其出現概率和影響較低。然而,網友對此表示擔憂,認為這種攻擊難以完全防范,谷歌只能盡量降低其發生概率。有網友建議增加一個輸入無法被清理的旁路來檢測攻擊行為,確保安全后再將輸入傳遞給模型。
5. 總結
雷哥的攻擊再次凸顯了大型語言模型安全性的重要性,提示詞注入攻擊仍然是當前大模型面臨的主要安全挑戰之一。 這起提醒各大模型廠商需要持續改進安全機制,加強對提示詞注入攻擊的防御,以保障用戶數據的安全和模型的可靠性。 雷哥作為白帽黑客,其發現和報告的漏洞為提升大模型安全做出了重要貢獻。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破