原標題:Anthropic 發現了一種 AI 越獄方法,安全護欄崩塌,文本視覺語音全部淪陷
文章來源:夕小瑤科技說
內容字數:4865字
1. 引言
近年來,Best-of-N (BoN) 方法在大語言模型(LLM)領域引發了廣泛關注。特別是Anthropic最近推出的“Best-of-N (BoN) Jailbreaking”方法,展現了其在越獄攻擊中的強大潛力,成功突破了多模態AI的防御機制。
2. 什么是Best-of-N (BoN)
Best-of-N是一種重復試驗策略,通過多次嘗試選出最佳結果。在越獄攻擊中,這意味著不斷變換輸入,直到成功繞過AI模型的防御。
3. BoN Jailbreaking的攻擊機制
這種方法通過黑盒模式進行攻擊,無需了解模型內部結構,僅依賴外部采樣。攻擊者通過對輸入內容進行隨機改動來誘導模型生成有害內容,展現出極高的攻擊成功率。
4. 攻擊成功率和模態覆蓋
BoN Jailbreaking在文本模態中表現尤為突出,攻擊成功率(ASR)高達89%。在視覺和音頻模態中,盡管成功率略低,但仍然能夠有效突破防線,分別達到56%和72%。
5. 跨模態攻擊的優勢
BoN Jailbreaking不僅限于文本,還擴展到圖像和音頻,通過各種方式(如字符變化、音調調整等)進行攻擊,展現出其多模態的強。
6. 攻擊成功率的冪律關系
研究發現,BoN Jailbreaking的攻擊成功率與采樣次數呈冪律關系,采樣越多,越容易成功。這一發現為評估模型風險提供了新的思路。
7. 隨機性與輸入多樣性的作用
攻擊的有效性部分源于輸入的隨機性,增強的信息熵提高了模型輸出的多樣性,盡管越獄輸入在重新采樣時的成功率并不高。
8. 復合式攻擊的提升效果
研究者還探索了BoN與其他攻擊技術的結合,發現復合式攻擊顯著提高了攻擊效率。在文本、視覺和音頻模態中,結合其他攻擊方法后,成功率和采樣效率都有顯著提升。
9. 結論
Anthropic的BoN Jailbreaking方法不僅揭示了AI模型防御的脆弱性,也提醒我們在未來的AI攻防戰中,簡單有效的策略依然具備巨大的威脅潛力。大模型的安全機制仍需進一步完善,以應對復雜多變的攻擊方式。
聯系作者
文章來源:夕小瑤科技說
作者微信:
作者簡介:解碼AI世界,硬核也可愛!聚集35萬AI發燒友、開發者和從業者,廣泛覆蓋互聯網大廠中高管、AI公司創始人和機構投資人。一線作者來自清北、國內外頂級AI實驗室和大廠,兼備敏銳的行業嗅覺和洞察深度。商務合作:zym5189