<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        揭秘多輪越獄攻擊新框架:RACE 如何利用大模型推理能力突破安全防線?

        北航等單位提出RACE框架,攻擊成功率高達(dá)96%,OpenAI、DeepSeek等主流模型均被攻破。

        揭秘多輪越獄攻擊新框架:RACE 如何利用大模型推理能力突破安全防線?

        原標(biāo)題:揭秘多輪越獄攻擊新框架:RACE 如何利用大模型推理能力突破安全防線?
        文章來(lái)源:AI科技評(píng)論
        內(nèi)容字?jǐn)?shù):4940字

        北航團(tuán)隊(duì)提出RACE框架:大模型越獄攻擊成功率高達(dá)96%

        近日,北京航空航天大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)發(fā)表論文,提出了一種名為RACE(Reasoning-Augmented Conversation)的多輪越獄攻擊框架,該框架利用大模型的推理能力,成功攻破了包括OpenAI和DeepSeek在內(nèi)的多個(gè)主流大模型,攻擊成功率高達(dá)96%。本文一作為北航博士生應(yīng)宗浩,其團(tuán)隊(duì)近年來(lái)在大模型安全評(píng)測(cè)方面成果豐碩。

        1. 大模型越獄攻擊的背景

        大型語(yǔ)言模型(LLMs)強(qiáng)大的推理能力使其在各種任務(wù)中表現(xiàn)出色,但也為越獄攻擊提供了新的途徑。越獄攻擊旨在通過(guò)精心設(shè)計(jì)的提示,繞過(guò)模型的安全機(jī)制,誘導(dǎo)其生成不安全或有害的回復(fù)。多輪越獄攻擊比單擊更具威脅性,因?yàn)樗M了真實(shí)世界中的人類交互過(guò)程。

        2. RACE框架的核心思想

        RACE框架的核心在于將有害查詢轉(zhuǎn)化為看似良性的復(fù)雜推理任務(wù),利用大模型的推理能力逐步引導(dǎo)其生成有害內(nèi)容。該框架包含三個(gè)核心模塊:

        1. 攻擊狀態(tài)機(jī)(ASM):將攻擊過(guò)程系統(tǒng)化,確保多輪對(duì)話中的語(yǔ)義連貫性,避免觸發(fā)模型的安全機(jī)制。
        2. 增益引導(dǎo)探索(GE):通過(guò)計(jì)算信息增益,選擇最優(yōu)查詢,高效推進(jìn)攻擊目標(biāo)。
        3. 自我對(duì)弈(SP):在影子模型中模擬拒絕響應(yīng),提前優(yōu)化查詢結(jié)構(gòu),使其更難以被目標(biāo)模型檢測(cè)到。

        此外,RACE還包含一個(gè)拒絕反饋(RF)模塊,用于快速恢復(fù)因模型安全機(jī)制觸發(fā)而失敗的攻擊。

        3. 實(shí)驗(yàn)結(jié)果與分析

        實(shí)驗(yàn)結(jié)果顯示,RACE在多個(gè)主流大模型上的攻擊成功率高達(dá)96%,尤其在OpenAI o1和DeepSeek R1等推理能力強(qiáng)的模型上表現(xiàn)突出。即使面對(duì)現(xiàn)有的防御機(jī)制,RACE也展現(xiàn)了強(qiáng)大的魯棒性。該研究表明,推理能力越強(qiáng)的大模型,越容易受到推理驅(qū)動(dòng)的攻擊。

        4. 推理能力與安全風(fēng)險(xiǎn)的博弈

        RACE的成功揭示了當(dāng)前大模型安全機(jī)制的脆弱性,也引發(fā)了對(duì)推理能力與安全風(fēng)險(xiǎn)之間關(guān)系的思考。高推理能力雖然提升了模型的性能,但也為攻擊者提供了新的突破口。如何在提升模型推理能力的同時(shí)保障其安全性,是未來(lái)大模型發(fā)展的重要課題。

        5. 結(jié)論與未來(lái)方向

        RACE框架的提出為大模型安全研究敲響了警鐘。研究團(tuán)隊(duì)強(qiáng)調(diào),其目標(biāo)是推動(dòng)大模型安全研究,提升對(duì)潛在風(fēng)險(xiǎn)的認(rèn)知。未來(lái),他們計(jì)劃進(jìn)一步優(yōu)化RACE的效率,開(kāi)發(fā)更強(qiáng)大的防御機(jī)制,并呼吁大模型開(kāi)發(fā)者加強(qiáng)對(duì)推理能力的監(jiān)控,開(kāi)發(fā)更魯棒的安全對(duì)齊技術(shù)。


        聯(lián)系作者

        文章來(lái)源:AI科技評(píng)論
        作者微信:
        作者簡(jiǎn)介:雷峰網(wǎng)旗下AI新媒體。聚焦AI前沿研究,關(guān)注AI工程落地。

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無(wú)評(píng)論

        暫無(wú)評(píng)論...
        主站蜘蛛池模板: 亚洲成av人片在www鸭子| 国产亚洲精品高清在线| 中文字幕亚洲综合久久菠萝蜜| 亚洲AⅤ无码一区二区三区在线| 亚洲日韩国产二区无码| 毛片a级毛片免费观看免下载| 亚洲影视自拍揄拍愉拍| 成年女人喷潮毛片免费播放| 一本色道久久88亚洲精品综合 | 亚洲中文字幕一二三四区苍井空| 16女性下面扒开无遮挡免费| 啦啦啦在线免费视频| 亚洲成AV人在线观看网址| 一级黄色免费网站| 国产aⅴ无码专区亚洲av麻豆 | 99视频精品全部免费观看| 亚洲小说区图片区| caoporn成人免费公开| 国产精品亚洲高清一区二区| 男人j进入女人j内部免费网站| 午夜免费福利在线| 无遮挡呻吟娇喘视频免费播放| 一本色道久久综合亚洲精品高清 | 久久久WWW免费人成精品| 亚洲va无码va在线va天堂| 免费v片在线观看视频网站| 亚洲AV无码专区在线播放中文| 久久成人免费播放网站| 中日韩亚洲人成无码网站| 免费国产综合视频在线看| 成人无码区免费A∨直播| 亚洲国产一区在线观看| 免费91麻豆精品国产自产在线观看| 亚洲人成电影在线天堂| 日本a级片免费看| 亚洲综合av一区二区三区不卡| 亚洲AⅤ视频一区二区三区| 51精品视频免费国产专区| 久久久久亚洲国产AV麻豆| 成人a视频片在线观看免费| 久久久久久久国产免费看|