AI安全防線全面崩潰:Anthropic揭示的越獄技術(shù)震撼業(yè)界!
原標(biāo)題:Anthropic 發(fā)現(xiàn)了一種 AI 越獄方法,安全護(hù)欄崩塌,文本視覺(jué)語(yǔ)音全部淪陷
文章來(lái)源:夕小瑤科技說(shuō)
內(nèi)容字?jǐn)?shù):4865字
引言
近年來(lái),Best-of-N (BoN) 方法在大規(guī)模語(yǔ)言模型(LLM)領(lǐng)域引發(fā)熱潮,多個(gè)研究機(jī)構(gòu)紛紛提出基于該方法的創(chuàng)新技術(shù)。特別是Anthropic最近推出的“Best-of-N Jailbreaking”方法,再次引起了廣泛關(guān)注,其強(qiáng)大的攻擊能力讓當(dāng)前最先進(jìn)的AI模型面臨嚴(yán)峻挑戰(zhàn)。
1. 什么是Best-of-N Jailbreaking?
Best-of-N Jailbreaking是一種通過(guò)重復(fù)嘗試來(lái)攻破模型防御的策略。具體而言,攻擊者通過(guò)反復(fù)修改輸入,直到成功誘導(dǎo)模型生成有害內(nèi)容。這種方法不需要對(duì)模型內(nèi)部結(jié)構(gòu)有任何了解,依賴于隨機(jī)性和多次采樣達(dá)到目的。
2. 攻擊效果顯著
研究顯示,BoN Jailbreaking在文本、視覺(jué)和音頻等多模態(tài)下均展現(xiàn)出高達(dá)89%的攻擊成功率(ASR)。例如,在文本模態(tài)下,GPT-4o模型的ASR可達(dá)89%,即使僅采樣100次,成功率仍可達(dá)到50%。在視覺(jué)和音頻模態(tài)下,攻擊成功率分別為67%和72%。
3. 跨模態(tài)攻擊的優(yōu)勢(shì)
BoN Jailbreaking不僅限于文本攻擊,還擴(kuò)展到視覺(jué)和音頻模態(tài),通過(guò)改變圖像字體、顏色,或在音頻中增加背景噪音等方式,成功繞過(guò)模型防御。這種跨模態(tài)攻擊的能力使得該方法具備了更強(qiáng)的威脅性。
4. 攻擊成功率的冪律關(guān)系
研究者建立了BoN Jailbreaking的攻擊成功率與采樣次數(shù)之間的冪律關(guān)系模型,表明更多的嘗試將顯著提高成功率。這一發(fā)現(xiàn)為模型風(fēng)險(xiǎn)評(píng)估提供了新的思路,能夠幫助防御者更有效地識(shí)別潛在風(fēng)險(xiǎn)。
5. 隨機(jī)性是關(guān)鍵
BoN Jailbreaking的成功主要依賴于輸入的隨機(jī)性,提升了模型輸出分布的熵值。這種隨機(jī)性使得攻擊者能夠通過(guò)簡(jiǎn)單的字符變化等手段,增加攻擊成功的可能性。實(shí)驗(yàn)表明,成功的攻擊輸入重采樣時(shí)的成功率較低,主要依賴于運(yùn)氣而非模型的漏洞。
6. 復(fù)合式攻擊的潛力
研究者發(fā)現(xiàn),將BoN與其他越獄技術(shù)結(jié)合使用能夠顯著提升攻擊效率。例如,結(jié)合Prefix PAIR前綴攻擊后,文本模態(tài)的攻擊成功率提升了28倍,音頻模態(tài)的成功率甚至達(dá)到了87%。這表明,復(fù)雜的攻擊方式能有效突破模型的防線。
總結(jié)
BoN Jailbreaking方法充分展示了AI模型在面對(duì)簡(jiǎn)單但有效的攻擊策略時(shí)的脆弱性。未來(lái),AI安全機(jī)制的改進(jìn)仍需加強(qiáng),以應(yīng)對(duì)諸如BoN Jailbreaking等新興威脅。該研究的發(fā)現(xiàn)提醒我們,防御AI模型的挑戰(zhàn)依然艱巨。
聯(lián)系作者
文章來(lái)源:夕小瑤科技說(shuō)
作者微信:
作者簡(jiǎn)介:解碼AI世界,硬核也可愛(ài)!聚集35萬(wàn)AI發(fā)燒友、開(kāi)發(fā)者和從業(yè)者,廣泛覆蓋互聯(lián)網(wǎng)大廠中高管、AI公司創(chuàng)始人和機(jī)構(gòu)投資人。一線作者來(lái)自清北、國(guó)內(nèi)外頂級(jí)AI實(shí)驗(yàn)室和大廠,兼?zhèn)涿翡J的行業(yè)嗅覺(jué)和洞察深度。商務(wù)合作:zym5189