AI安全防線全面崩潰：Anthropic揭示的越獄技術震撼業界！

原標題：Anthropic 發現了一種 AI 越獄方法，安全護欄崩塌，文本視覺語音全部淪陷
文章來源：夕小瑤科技說
內容字數：4865字

近年來，Best-of-N (BoN) 方法在大規模語言模型（LLM）領域引發熱潮，多個研究機構紛紛提出基于該方法的創新技術。特別是Anthropic最近推出的“Best-of-N Jailbreaking”方法，再次引起了廣泛關注，其強大的攻擊能力讓當前最先進的AI模型面臨嚴峻挑戰。

Best-of-N Jailbreaking是一種通過重復嘗試來攻破模型防御的策略。具體而言，攻擊者通過反復修改輸入，直到成功誘導模型生成有害內容。這種方法不需要對模型內部結構有任何了解，依賴于隨機性和多次采樣達到目的。

研究顯示，BoN Jailbreaking在文本、視覺和音頻等多模態下均展現出高達89%的攻擊成功率（ASR）。例如，在文本模態下，GPT-4o模型的ASR可達89%，即使僅采樣100次，成功率仍可達到50%。在視覺和音頻模態下，攻擊成功率分別為67%和72%。

BoN Jailbreaking不僅限于文本攻擊，還擴展到視覺和音頻模態，通過改變圖像字體、顏色，或在音頻中增加背景噪音等方式，成功繞過模型防御。這種跨模態攻擊的能力使得該方法具備了更強的威脅性。

研究者建立了BoN Jailbreaking的攻擊成功率與采樣次數之間的冪律關系模型，表明更多的嘗試將顯著提高成功率。這一發現為模型風險評估提供了新的思路，能夠幫助防御者更有效地識別潛在風險。

BoN Jailbreaking的成功主要依賴于輸入的隨機性，提升了模型輸出分布的熵值。這種隨機性使得攻擊者能夠通過簡單的字符變化等手段，增加攻擊成功的可能性。實驗表明，成功的攻擊輸入重采樣時的成功率較低，主要依賴于運氣而非模型的漏洞。

研究者發現，將BoN與其他越獄技術結合使用能夠顯著提升攻擊效率。例如，結合Prefix PAIR前綴攻擊后，文本模態的攻擊成功率提升了28倍，音頻模態的成功率甚至達到了87%。這表明，復雜的攻擊方式能有效突破模型的防線。

BoN Jailbreaking方法充分展示了AI模型在面對簡單但有效的攻擊策略時的脆弱性。未來，AI安全機制的改進仍需加強，以應對諸如BoN Jailbreaking等新興威脅。該研究的發現提醒我們，防御AI模型的挑戰依然艱巨。

聯系作者

文章來源：夕小瑤科技說
作者微信：
作者簡介：解碼AI世界，硬核也可愛！聚集35萬AI發燒友、開發者和從業者，廣泛覆蓋互聯網大廠中高管、AI公司創始人和機構投資人。一線作者來自清北、國內外頂級AI實驗室和大廠，兼備敏銳的行業嗅覺和洞察深度。商務合作：zym5189

文章版權歸作者所有，未經允許請勿轉載。

暫無評論...