揭秘多輪越獄攻擊新框架:RACE 如何利用大模型推理能力突破安全防線?
北航等單位提出RACE框架,攻擊成功率高達(dá)96%,OpenAI、DeepSeek等主流模型均被攻破。
原標(biāo)題:揭秘多輪越獄攻擊新框架:RACE 如何利用大模型推理能力突破安全防線?
文章來(lái)源:AI科技評(píng)論
內(nèi)容字?jǐn)?shù):4940字
北航團(tuán)隊(duì)提出RACE框架:大模型越獄攻擊成功率高達(dá)96%
近日,北京航空航天大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)發(fā)表論文,提出了一種名為RACE(Reasoning-Augmented Conversation)的多輪越獄攻擊框架,該框架利用大模型的推理能力,成功攻破了包括OpenAI和DeepSeek在內(nèi)的多個(gè)主流大模型,攻擊成功率高達(dá)96%。本文一作為北航博士生應(yīng)宗浩,其團(tuán)隊(duì)近年來(lái)在大模型安全評(píng)測(cè)方面成果豐碩。
1. 大模型越獄攻擊的背景
大型語(yǔ)言模型(LLMs)強(qiáng)大的推理能力使其在各種任務(wù)中表現(xiàn)出色,但也為越獄攻擊提供了新的途徑。越獄攻擊旨在通過(guò)精心設(shè)計(jì)的提示,繞過(guò)模型的安全機(jī)制,誘導(dǎo)其生成不安全或有害的回復(fù)。多輪越獄攻擊比單擊更具威脅性,因?yàn)樗M了真實(shí)世界中的人類交互過(guò)程。
2. RACE框架的核心思想
RACE框架的核心在于將有害查詢轉(zhuǎn)化為看似良性的復(fù)雜推理任務(wù),利用大模型的推理能力逐步引導(dǎo)其生成有害內(nèi)容。該框架包含三個(gè)核心模塊:
- 攻擊狀態(tài)機(jī)(ASM):將攻擊過(guò)程系統(tǒng)化,確保多輪對(duì)話中的語(yǔ)義連貫性,避免觸發(fā)模型的安全機(jī)制。
- 增益引導(dǎo)探索(GE):通過(guò)計(jì)算信息增益,選擇最優(yōu)查詢,高效推進(jìn)攻擊目標(biāo)。
- 自我對(duì)弈(SP):在影子模型中模擬拒絕響應(yīng),提前優(yōu)化查詢結(jié)構(gòu),使其更難以被目標(biāo)模型檢測(cè)到。
此外,RACE還包含一個(gè)拒絕反饋(RF)模塊,用于快速恢復(fù)因模型安全機(jī)制觸發(fā)而失敗的攻擊。
3. 實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)結(jié)果顯示,RACE在多個(gè)主流大模型上的攻擊成功率高達(dá)96%,尤其在OpenAI o1和DeepSeek R1等推理能力強(qiáng)的模型上表現(xiàn)突出。即使面對(duì)現(xiàn)有的防御機(jī)制,RACE也展現(xiàn)了強(qiáng)大的魯棒性。該研究表明,推理能力越強(qiáng)的大模型,越容易受到推理驅(qū)動(dòng)的攻擊。
4. 推理能力與安全風(fēng)險(xiǎn)的博弈
RACE的成功揭示了當(dāng)前大模型安全機(jī)制的脆弱性,也引發(fā)了對(duì)推理能力與安全風(fēng)險(xiǎn)之間關(guān)系的思考。高推理能力雖然提升了模型的性能,但也為攻擊者提供了新的突破口。如何在提升模型推理能力的同時(shí)保障其安全性,是未來(lái)大模型發(fā)展的重要課題。
5. 結(jié)論與未來(lái)方向
RACE框架的提出為大模型安全研究敲響了警鐘。研究團(tuán)隊(duì)強(qiáng)調(diào),其目標(biāo)是推動(dòng)大模型安全研究,提升對(duì)潛在風(fēng)險(xiǎn)的認(rèn)知。未來(lái),他們計(jì)劃進(jìn)一步優(yōu)化RACE的效率,開(kāi)發(fā)更強(qiáng)大的防御機(jī)制,并呼吁大模型開(kāi)發(fā)者加強(qiáng)對(duì)推理能力的監(jiān)控,開(kāi)發(fā)更魯棒的安全對(duì)齊技術(shù)。
聯(lián)系作者
文章來(lái)源:AI科技評(píng)論
作者微信:
作者簡(jiǎn)介:雷峰網(wǎng)旗下AI新媒體。聚焦AI前沿研究,關(guān)注AI工程落地。