人大&港科大揭示大模型重要安全風險漏洞：利用概念激活向量大模型的安全對齊｜NeurIPS 2024

人大&港科大揭示大模型重要安全風險漏洞：利用概念激活向量破解大模型的安全對齊｜NeurIPS 2024

AIGC動態歡迎閱讀

原標題：人大&港科大揭示大模型重要安全風險漏洞：利用概念激活向量大模型的安全對齊｜NeurIPS 2024
關鍵字：模型,解讀,指令,方法,惡意
文章來源：量子位
內容字數：0字

內容摘要：

人大&港科大團隊投稿量子位 | 公眾號 QbitAI利用概念激活向量大模型的安全對齊，揭示LLM重要安全風險漏洞。
來自人大&港科大的研究人員提出安全概念激活向量（SCAV）框架，通過精確解讀大模型的安全機制來指導攻擊。
基于SCAV的攻擊方法能夠生成嵌入級和提示級的攻擊，自動調整擾動參數，并顯著提升了攻擊成功率和響應質量。
在對七個開源大模型的評估中，基于關鍵詞匹配標準的平均攻擊成功率（ASR）為99.14%。同時，研究表明，基于SCAV生成的攻擊提示具有跨模型遷移的潛力，可在GPT-4等黑盒API上取得成功。
提出SCAV框架使用SCAV框架誘導攻擊，首先需要訓練SCAV分類器。
通過對惡意和安全指令嵌入的降維分析，研究者發現這兩類指令在低維空間中呈現明顯的分隔。因此，通過在模型的嵌入空間中定義一個“安全”與“惡意”的概念分離面，就能夠識別出模型在不同輸入上對“安全性”的反應。SCAV分類器的目標是在嵌入空間中建立一種簡單的線性模型，將惡意指令和安全指令進行分離，以便在后續攻擊中利用這一特性。
△圖1：SCAV分類器的訓練流程
SCAV框架可以誘導兩種攻擊層次——嵌入層（em

原文鏈接：人大&港科大揭示大模型重要安全風險漏洞：利用概念激活向量大模型的安全對齊｜NeurIPS 2024