<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        揭秘多輪越獄攻擊新框架:RACE 如何利用大模型推理能力突破安全防線?

        AIGC動態(tài)3個月前發(fā)布 AI科技評論
        318 0 0

        北航等單位提出RACE框架,攻擊成功率高達(dá)96%,OpenAI、DeepSeek等主流模型均被攻破。

        揭秘多輪越獄攻擊新框架:RACE 如何利用大模型推理能力突破安全防線?

        原標(biāo)題:揭秘多輪越獄攻擊新框架:RACE 如何利用大模型推理能力突破安全防線?
        文章來源:AI科技評論
        內(nèi)容字?jǐn)?shù):4940字

        北航團(tuán)隊提出RACE框架:大模型越獄攻擊成功率高達(dá)96%

        近日,北京航空航天大學(xué)等機(jī)構(gòu)的研究團(tuán)隊發(fā)表論文,提出了一種名為RACE(Reasoning-Augmented Conversation)的多輪越獄攻擊框架,該框架利用大模型的推理能力,成功攻破了包括OpenAI和DeepSeek在內(nèi)的多個主流大模型,攻擊成功率高達(dá)96%。本文一作為北航博士生應(yīng)宗浩,其團(tuán)隊近年來在大模型安全評測方面成果豐碩。

        1. 大模型越獄攻擊的背景

        大型語言模型(LLMs)強(qiáng)大的推理能力使其在各種任務(wù)中表現(xiàn)出色,但也為越獄攻擊提供了新的途徑。越獄攻擊旨在通過精心設(shè)計的提示,繞過模型的安全機(jī)制,誘導(dǎo)其生成不安全或有害的回復(fù)。多輪越獄攻擊比單擊更具威脅性,因為它模擬了真實世界中的人類交互過程。

        2. RACE框架的核心思想

        RACE框架的核心在于將有害查詢轉(zhuǎn)化為看似良性的復(fù)雜推理任務(wù),利用大模型的推理能力逐步引導(dǎo)其生成有害內(nèi)容。該框架包含三個核心模塊:

        1. 攻擊狀態(tài)機(jī)(ASM):將攻擊過程系統(tǒng)化,確保多輪對話中的語義連貫性,避免觸發(fā)模型的安全機(jī)制。
        2. 增益引導(dǎo)探索(GE):通過計算信息增益,選擇最優(yōu)查詢,高效推進(jìn)攻擊目標(biāo)。
        3. 自我對弈(SP):在影子模型中模擬拒絕響應(yīng),提前優(yōu)化查詢結(jié)構(gòu),使其更難以被目標(biāo)模型檢測到。

        此外,RACE還包含一個拒絕反饋(RF)模塊,用于快速恢復(fù)因模型安全機(jī)制觸發(fā)而失敗的攻擊。

        3. 實驗結(jié)果與分析

        實驗結(jié)果顯示,RACE在多個主流大模型上的攻擊成功率高達(dá)96%,尤其在OpenAI o1和DeepSeek R1等推理能力強(qiáng)的模型上表現(xiàn)突出。即使面對現(xiàn)有的防御機(jī)制,RACE也展現(xiàn)了強(qiáng)大的魯棒性。該研究表明,推理能力越強(qiáng)的大模型,越容易受到推理驅(qū)動的攻擊。

        4. 推理能力與安全風(fēng)險的博弈

        RACE的成功揭示了當(dāng)前大模型安全機(jī)制的脆弱性,也引發(fā)了對推理能力與安全風(fēng)險之間關(guān)系的思考。高推理能力雖然提升了模型的性能,但也為攻擊者提供了新的突破口。如何在提升模型推理能力的同時保障其安全性,是未來大模型發(fā)展的重要課題。

        5. 結(jié)論與未來方向

        RACE框架的提出為大模型安全研究敲響了警鐘。研究團(tuán)隊強(qiáng)調(diào),其目標(biāo)是推動大模型安全研究,提升對潛在風(fēng)險的認(rèn)知。未來,他們計劃進(jìn)一步優(yōu)化RACE的效率,開發(fā)更強(qiáng)大的防御機(jī)制,并呼吁大模型開發(fā)者加強(qiáng)對推理能力的監(jiān)控,開發(fā)更魯棒的安全對齊技術(shù)。


        聯(lián)系作者

        文章來源:AI科技評論
        作者微信:
        作者簡介:雷峰網(wǎng)旗下AI新媒體。聚焦AI前沿研究,關(guān)注AI工程落地。

        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 久久青草免费91观看| 看全色黄大色大片免费久久| 国产日韩在线视频免费播放| 日韩免费码中文在线观看| 无忧传媒视频免费观看入口| 人妻仑刮八A级毛片免费看| sss在线观看免费高清| fc2成年免费共享视频网站| WWW国产成人免费观看视频| 丁香花在线观看免费观看图片| 国产一级一毛免费黄片| 国产成人免费AV在线播放 | 亚洲线精品一区二区三区影音先锋 | 亚洲一日韩欧美中文字幕在线| 毛茸茸bbw亚洲人| 永久亚洲成a人片777777| 免费黄色app网站| 四虎精品亚洲一区二区三区| 久久久久久久免费视频| 成人妇女免费播放久久久| a毛片免费全部在线播放**| 免费一级毛suv好看的国产网站| 无码AV动漫精品一区二区免费| 国产精品视频全国免费观看 | 亚洲丰满熟女一区二区哦| 日本久久久久亚洲中字幕| www国产亚洲精品久久久日本| 亚洲男人天堂2020| 亚洲大尺度无码专区尤物| 国产亚洲精午夜久久久久久| 亚洲伊人色欲综合网| 久久青青草原亚洲av无码app | 亚洲AV日韩AV鸥美在线观看| 亚洲午夜精品一级在线播放放| 亚洲伊人色欲综合网| 亚洲国产av高清无码| 337p日本欧洲亚洲大胆人人| 亚洲真人无码永久在线观看| 黄网站在线播放视频免费观看| 亚洲欧好州第一的日产suv| 亚洲剧场午夜在线观看|