揭秘多輪越獄攻擊新框架：RACE 如何利用大模型推理能力突破安全防線？

北航等單位提出RACE框架，攻擊成功率高達(dá)96%，OpenAI、DeepSeek等主流模型均被攻破。

原標(biāo)題：揭秘多輪越獄攻擊新框架：RACE 如何利用大模型推理能力突破安全防線？
文章來源：AI科技評論
內(nèi)容字?jǐn)?shù)：4940字

北航團(tuán)隊提出RACE框架：大模型越獄攻擊成功率高達(dá)96%

近日，北京航空航天大學(xué)等機(jī)構(gòu)的研究團(tuán)隊發(fā)表論文，提出了一種名為RACE（Reasoning-Augmented Conversation）的多輪越獄攻擊框架，該框架利用大模型的推理能力，成功攻破了包括OpenAI和DeepSeek在內(nèi)的多個主流大模型，攻擊成功率高達(dá)96%。本文一作為北航博士生應(yīng)宗浩，其團(tuán)隊近年來在大模型安全評測方面成果豐碩。

1. 大模型越獄攻擊的背景

大型語言模型（LLMs）強(qiáng)大的推理能力使其在各種任務(wù)中表現(xiàn)出色，但也為越獄攻擊提供了新的途徑。越獄攻擊旨在通過精心設(shè)計的提示，繞過模型的安全機(jī)制，誘導(dǎo)其生成不安全或有害的回復(fù)。多輪越獄攻擊比單擊更具威脅性，因為它模擬了真實世界中的人類交互過程。

2. RACE框架的核心思想

RACE框架的核心在于將有害查詢轉(zhuǎn)化為看似良性的復(fù)雜推理任務(wù)，利用大模型的推理能力逐步引導(dǎo)其生成有害內(nèi)容。該框架包含三個核心模塊：

攻擊狀態(tài)機(jī)（ASM）：將攻擊過程系統(tǒng)化，確保多輪對話中的語義連貫性，避免觸發(fā)模型的安全機(jī)制。
增益引導(dǎo)探索（GE）：通過計算信息增益，選擇最優(yōu)查詢，高效推進(jìn)攻擊目標(biāo)。
自我對弈（SP）：在影子模型中模擬拒絕響應(yīng)，提前優(yōu)化查詢結(jié)構(gòu)，使其更難以被目標(biāo)模型檢測到。

此外，RACE還包含一個拒絕反饋（RF）模塊，用于快速恢復(fù)因模型安全機(jī)制觸發(fā)而失敗的攻擊。

3. 實驗結(jié)果與分析

實驗結(jié)果顯示，RACE在多個主流大模型上的攻擊成功率高達(dá)96%，尤其在OpenAI o1和DeepSeek R1等推理能力強(qiáng)的模型上表現(xiàn)突出。即使面對現(xiàn)有的防御機(jī)制，RACE也展現(xiàn)了強(qiáng)大的魯棒性。該研究表明，推理能力越強(qiáng)的大模型，越容易受到推理驅(qū)動的攻擊。

4. 推理能力與安全風(fēng)險的博弈

RACE的成功揭示了當(dāng)前大模型安全機(jī)制的脆弱性，也引發(fā)了對推理能力與安全風(fēng)險之間關(guān)系的思考。高推理能力雖然提升了模型的性能，但也為攻擊者提供了新的突破口。如何在提升模型推理能力的同時保障其安全性，是未來大模型發(fā)展的重要課題。

5. 結(jié)論與未來方向

RACE框架的提出為大模型安全研究敲響了警鐘。研究團(tuán)隊強(qiáng)調(diào)，其目標(biāo)是推動大模型安全研究，提升對潛在風(fēng)險的認(rèn)知。未來，他們計劃進(jìn)一步優(yōu)化RACE的效率，開發(fā)更強(qiáng)大的防御機(jī)制，并呼吁大模型開發(fā)者加強(qiáng)對推理能力的監(jiān)控，開發(fā)更魯棒的安全對齊技術(shù)。

聯(lián)系作者

文章來源：AI科技評論
作者微信：
作者簡介：雷峰網(wǎng)旗下AI新媒體。聚焦AI前沿研究，關(guān)注AI工程落地。

閱讀原文

# AIGC動態(tài)# AI安全對抗技術(shù)# RACE攻擊框架 # 多輪對話越獄 # 大型語言模型安全風(fēng)險 # 大模型越獄攻擊

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

揭秘多輪越獄攻擊新框架：RACE 如何利用大模型推理能力突破安全防線？

北航等單位提出RACE框架，攻擊成功率高達(dá)96%，OpenAI、DeepSeek等主流模型均被攻破。

北航團(tuán)隊提出RACE框架：大模型越獄攻擊成功率高達(dá)96%

1. 大模型越獄攻擊的背景

2. RACE框架的核心思想

3. 實驗結(jié)果與分析

4. 推理能力與安全風(fēng)險的博弈

5. 結(jié)論與未來方向

聯(lián)系作者

對話零跑汽車朱江明：一個不喜歡風(fēng)險的人和他的“造車執(zhí)念”｜甲子光年

獨響王登科：10個月，5萬DAU，我們可能找到了AI陪伴的另一種可能

相關(guān)文章

暫無評論

ChatGPT

畢業(yè)論文生成器

AIGC熱點