AIGC動態歡迎閱讀
原標題:人大&港科大揭示大模型重要安全風險漏洞:利用概念激活向量大模型的安全對齊|NeurIPS 2024
關鍵字:模型,解讀,指令,方法,惡意
文章來源:量子位
內容字數:0字
內容摘要:
人大&港科大團隊 投稿量子位 | 公眾號 QbitAI利用概念激活向量大模型的安全對齊,揭示LLM重要安全風險漏洞。
來自人大&港科大的研究人員提出安全概念激活向量(SCAV)框架,通過精確解讀大模型的安全機制來指導攻擊。
基于SCAV的攻擊方法能夠生成嵌入級和提示級的攻擊,自動調整擾動參數,并顯著提升了攻擊成功率和響應質量。
在對七個開源大模型的評估中,基于關鍵詞匹配標準的平均攻擊成功率(ASR)為99.14%。同時,研究表明,基于SCAV生成的攻擊提示具有跨模型遷移的潛力,可在GPT-4等黑盒API上取得成功。
提出SCAV框架使用SCAV框架誘導攻擊,首先需要訓練SCAV分類器。
通過對惡意和安全指令嵌入的降維分析,研究者發現這兩類指令在低維空間中呈現明顯的分隔。因此,通過在模型的嵌入空間中定義一個“安全”與“惡意”的概念分離面,就能夠識別出模型在不同輸入上對“安全性”的反應。SCAV分類器的目標是在嵌入空間中建立一種簡單的線性模型,將惡意指令和安全指令進行分離,以便在后續攻擊中利用這一特性。
△圖1:SCAV分類器的訓練流程
SCAV框架可以誘導兩種攻擊層次——嵌入層(em
原文鏈接:人大&港科大揭示大模型重要安全風險漏洞:利用概念激活向量大模型的安全對齊|NeurIPS 2024
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...