<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        人大&港科大揭示大模型重要安全風險漏洞:利用概念激活向量大模型的安全對齊|NeurIPS 2024

        AIGC動態6個月前發布 量子位
        344 0 0

        人大&港科大揭示大模型重要安全風險漏洞:利用概念激活向量破解大模型的安全對齊|NeurIPS 2024

        AIGC動態歡迎閱讀

        原標題:人大&港科大揭示大模型重要安全風險漏洞:利用概念激活向量大模型的安全對齊|NeurIPS 2024
        關鍵字:模型,解讀,指令,方法,惡意
        文章來源:量子位
        內容字數:0字

        內容摘要:


        人大&港科大團隊 投稿量子位 | 公眾號 QbitAI利用概念激活向量大模型的安全對齊,揭示LLM重要安全風險漏洞。
        來自人大&港科大的研究人員提出安全概念激活向量(SCAV)框架,通過精確解讀大模型的安全機制來指導攻擊。
        基于SCAV的攻擊方法能夠生成嵌入級和提示級的攻擊,自動調整擾動參數,并顯著提升了攻擊成功率和響應質量。
        在對七個開源大模型的評估中,基于關鍵詞匹配標準的平均攻擊成功率(ASR)為99.14%。同時,研究表明,基于SCAV生成的攻擊提示具有跨模型遷移的潛力,可在GPT-4等黑盒API上取得成功。
        提出SCAV框架使用SCAV框架誘導攻擊,首先需要訓練SCAV分類器。
        通過對惡意和安全指令嵌入的降維分析,研究者發現這兩類指令在低維空間中呈現明顯的分隔。因此,通過在模型的嵌入空間中定義一個“安全”與“惡意”的概念分離面,就能夠識別出模型在不同輸入上對“安全性”的反應。SCAV分類器的目標是在嵌入空間中建立一種簡單的線性模型,將惡意指令和安全指令進行分離,以便在后續攻擊中利用這一特性。
        △圖1:SCAV分類器的訓練流程
        SCAV框架可以誘導兩種攻擊層次——嵌入層(em


        原文鏈接:人大&港科大揭示大模型重要安全風險漏洞:利用概念激活向量大模型的安全對齊|NeurIPS 2024

        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 99免费精品视频| 国产精品亚洲AV三区| 国产一区二区免费| 在线播放亚洲第一字幕| 黄 色一级 成 人网站免费| 亚洲男人的天堂一区二区| www在线观看免费视频| 中文字幕亚洲综合久久男男| 中文字幕免费视频精品一| 亚洲精品无码Av人在线观看国产| 国产麻豆成人传媒免费观看| 亚洲成色999久久网站| a拍拍男女免费看全片| 亚洲av日韩av无码av| 午夜一级毛片免费视频| 国产精品自拍亚洲| 亚洲婷婷五月综合狠狠爱| 99在线免费观看视频| 国产成人精品亚洲日本在线| 国产无遮挡色视频免费视频| 一个人看的在线免费视频| 亚洲AV日韩AV永久无码绿巨人| 3344免费播放观看视频| 亚洲精品无码高潮喷水A片软| 免费jjzz在线播放国产| 免费一级不卡毛片| 国产91在线|亚洲| 亚洲午夜精品一级在线播放放 | 91亚洲国产在人线播放午夜 | 亚洲国产激情在线一区| 四虎影视永久免费观看网址| aa级女人大片喷水视频免费| 亚洲av不卡一区二区三区| 成人免费视频试看120秒| 成人免费av一区二区三区| 亚洲伊人久久大香线蕉啊| 亚洲第一页日韩专区| 污污网站免费观看| 特黄特色大片免费| 亚洲欧洲视频在线观看| 亚洲精品尤物yw在线影院|