揭秘多輪越獄攻擊新框架:RACE 如何利用大模型推理能力突破安全防線?
北航等單位提出RACE框架,攻擊成功率高達(dá)96%,OpenAI、DeepSeek等主流模型均被攻破。
原標(biāo)題:揭秘多輪越獄攻擊新框架:RACE 如何利用大模型推理能力突破安全防線?
文章來源:AI科技評論
內(nèi)容字?jǐn)?shù):4940字
北航團(tuán)隊提出RACE框架:大模型越獄攻擊成功率高達(dá)96%
近日,北京航空航天大學(xué)等機(jī)構(gòu)的研究團(tuán)隊發(fā)表論文,提出了一種名為RACE(Reasoning-Augmented Conversation)的多輪越獄攻擊框架,該框架利用大模型的推理能力,成功攻破了包括OpenAI和DeepSeek在內(nèi)的多個主流大模型,攻擊成功率高達(dá)96%。本文一作為北航博士生應(yīng)宗浩,其團(tuán)隊近年來在大模型安全評測方面成果豐碩。
1. 大模型越獄攻擊的背景
大型語言模型(LLMs)強(qiáng)大的推理能力使其在各種任務(wù)中表現(xiàn)出色,但也為越獄攻擊提供了新的途徑。越獄攻擊旨在通過精心設(shè)計的提示,繞過模型的安全機(jī)制,誘導(dǎo)其生成不安全或有害的回復(fù)。多輪越獄攻擊比單擊更具威脅性,因為它模擬了真實世界中的人類交互過程。
2. RACE框架的核心思想
RACE框架的核心在于將有害查詢轉(zhuǎn)化為看似良性的復(fù)雜推理任務(wù),利用大模型的推理能力逐步引導(dǎo)其生成有害內(nèi)容。該框架包含三個核心模塊:
- 攻擊狀態(tài)機(jī)(ASM):將攻擊過程系統(tǒng)化,確保多輪對話中的語義連貫性,避免觸發(fā)模型的安全機(jī)制。
- 增益引導(dǎo)探索(GE):通過計算信息增益,選擇最優(yōu)查詢,高效推進(jìn)攻擊目標(biāo)。
- 自我對弈(SP):在影子模型中模擬拒絕響應(yīng),提前優(yōu)化查詢結(jié)構(gòu),使其更難以被目標(biāo)模型檢測到。
此外,RACE還包含一個拒絕反饋(RF)模塊,用于快速恢復(fù)因模型安全機(jī)制觸發(fā)而失敗的攻擊。
3. 實驗結(jié)果與分析
實驗結(jié)果顯示,RACE在多個主流大模型上的攻擊成功率高達(dá)96%,尤其在OpenAI o1和DeepSeek R1等推理能力強(qiáng)的模型上表現(xiàn)突出。即使面對現(xiàn)有的防御機(jī)制,RACE也展現(xiàn)了強(qiáng)大的魯棒性。該研究表明,推理能力越強(qiáng)的大模型,越容易受到推理驅(qū)動的攻擊。
4. 推理能力與安全風(fēng)險的博弈
RACE的成功揭示了當(dāng)前大模型安全機(jī)制的脆弱性,也引發(fā)了對推理能力與安全風(fēng)險之間關(guān)系的思考。高推理能力雖然提升了模型的性能,但也為攻擊者提供了新的突破口。如何在提升模型推理能力的同時保障其安全性,是未來大模型發(fā)展的重要課題。
5. 結(jié)論與未來方向
RACE框架的提出為大模型安全研究敲響了警鐘。研究團(tuán)隊強(qiáng)調(diào),其目標(biāo)是推動大模型安全研究,提升對潛在風(fēng)險的認(rèn)知。未來,他們計劃進(jìn)一步優(yōu)化RACE的效率,開發(fā)更強(qiáng)大的防御機(jī)制,并呼吁大模型開發(fā)者加強(qiáng)對推理能力的監(jiān)控,開發(fā)更魯棒的安全對齊技術(shù)。
聯(lián)系作者
文章來源:AI科技評論
作者微信:
作者簡介:雷峰網(wǎng)旗下AI新媒體。聚焦AI前沿研究,關(guān)注AI工程落地。