<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        攻破AI最強(qiáng)守衛(wèi),賞金2萬刀!Anthropic新方法可阻止95% Claude「越獄」行為

        AIGC動態(tài)5個月前發(fā)布 新智元
        286 0 0

        攻破AI最強(qiáng)守衛(wèi),賞金2萬刀!Anthropic新方法可阻止95% Claude「越獄」行為

        原標(biāo)題:攻破AI最強(qiáng)守衛(wèi),賞金2萬刀!Anthropic新方法可阻止95% Claude「越獄」行為
        文章來源:新智元
        內(nèi)容字?jǐn)?shù):8888字

        Anthropic發(fā)布新型AI模型防護(hù)方法,抵御越獄攻擊

        文章報道了Anthropic公司發(fā)布的一種新型AI模型防護(hù)方法,該方法在48小時內(nèi)成功抵御了大部分越獄嘗試,并提高了賞金以鼓勵更多安全研究人員參與測試。

        1. 什么是模型越獄?

          大語言模型(LLM)容易受到“越獄”攻擊,即通過精心設(shè)計的提示繞過模型的安全防護(hù)措施,誘導(dǎo)模型執(zhí)行有害行為,例如生成非法物質(zhì)的制作方法。為了應(yīng)對這一挑戰(zhàn),Anthropic研發(fā)了新的防護(hù)系統(tǒng)。

        2. Anthropic的新型防護(hù)方法:憲法分類器

          Anthropic的新方法的核心是“憲法分類器”。該系統(tǒng)利用自然語言規(guī)則(“憲法”)來定義允許和禁止的內(nèi)容,并以此訓(xùn)練一個分類器來識別和阻止有害輸出。該分類器能夠?qū)崟r監(jiān)控模型的輸出,并在檢測到有害內(nèi)容時立即停止生成。這種方法的優(yōu)勢在于能夠快速適應(yīng)新的威脅模型,并通過數(shù)據(jù)增強(qiáng)和無害數(shù)據(jù)池來提升性能。

        3. 測試結(jié)果與效率

          Anthropic進(jìn)行了廣泛的測試,包括人類紅隊測試和自動化紅隊測試。結(jié)果顯示,該方法能夠阻止95%以上的越獄嘗試,而對模型性能的影響有限:生產(chǎn)環(huán)境中Claude.ai流量拒絕率僅增加了0.38%,推理開銷增加了23.7%。盡管如此,仍有少量越獄嘗試成功,這體現(xiàn)了持續(xù)改進(jìn)安全防護(hù)的必要性。

        4. 為什么要研究模型越獄?

          Anthropic強(qiáng)調(diào)研究模型越獄的必要性,因為日益強(qiáng)大的LLM可能被惡意利用,帶來巨大的風(fēng)險。提前研發(fā)和部署有效的安全防護(hù)措施,能夠在未來避免潛在的災(zāi)難性后果。

        5. 技術(shù)細(xì)節(jié):憲法分類器的工作原理

          憲法分類器由輸入分類器和輸出分類器組成。輸入分類器對輸入提示進(jìn)行評估,而輸出分類器則實時監(jiān)控輸出,以確保安全。訓(xùn)練數(shù)據(jù)通過規(guī)則合成、數(shù)據(jù)增強(qiáng)和自動化紅隊測試生成。輸出分類器支持流式預(yù)測,能夠在檢測到有害內(nèi)容時立即停止生成,兼顧安全性和用戶體驗。

        6. 紅隊測試結(jié)果

          在HackerOne平臺上進(jìn)行的紅隊測試中,盡管參與者嘗試了多種攻擊策略,但沒有一個能夠完全攻破系統(tǒng)。最成功的參與者也只取得了有限的成果,這表明憲法分類器在抵御通用越獄攻擊方面具有一定的有效性。

        7. 未來展望

          盡管Anthropic的新方法取得了顯著成果,但文章也指出,沒有完美的防護(hù)系統(tǒng),安全與功能之間的矛盾將持續(xù)存在。未來仍需持續(xù)改進(jìn)和完善AI模型的安全防護(hù)措施,以應(yīng)對不斷演變的威脅。


        聯(lián)系作者

        文章來源:新智元
        作者微信:
        作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會與文明進(jìn)化的影響,領(lǐng)航中國新智能時代。

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 又粗又硬免费毛片| 亚洲自偷自偷偷色无码中文| 在线观看特色大片免费视频| 国产精品视频免费| 最近最好的中文字幕2019免费| 国产老女人精品免费视频| 亚洲人成国产精品无码| 亚洲第一成年免费网站| 亚洲精品色在线网站| 另类免费视频一区二区在线观看| 成人午夜亚洲精品无码网站| 久久久久亚洲AV片无码下载蜜桃 | 亚洲AV无码一区二区三区在线| 亚洲人成网国产最新在线| www永久免费视频| 在线看免费观看AV深夜影院| 免费大片在线观看网站| 久久精品国产亚洲AV无码麻豆| 亚洲av永久无码精品秋霞电影秋| baoyu777永久免费视频| 国产99视频精品免费观看7| 久久久久久A亚洲欧洲AV冫| 亚洲人成未满十八禁网站| GOGOGO免费观看国语| 免费观看男人免费桶女人视频| 亚洲AV无码国产丝袜在线观看| 亚洲av午夜国产精品无码中文字| 成人免费区一区二区三区 | 午夜不卡久久精品无码免费| 日本免费人成视频播放| 亚洲精品视频观看| 精品一区二区三区免费| 亚洲国产精品日韩| 精品亚洲av无码一区二区柚蜜| 精品国产无限资源免费观看| 亚洲AV电影院在线观看| 一级毛片在线观看免费| 亚洲va中文字幕无码久久| a毛片全部播放免费视频完整18| 中文字幕不卡亚洲| 99久久99这里只有免费的精品|