當心智能體！人大、北大團隊深入研究大模型智能體魯棒性，揭示嚴重安全風險

AIGC動態2年前 (2024)發布夕小瑤科技說

當心智能體后門！人大、北大團隊深入研究大模型智能體后門魯棒性，揭示嚴重安全風險

AIGC動態歡迎閱讀

原標題：當心智能體！人大、北大團隊深入研究大模型智能體魯棒性，揭示嚴重安全風險
關鍵字：,智能,模型,報告,觸發器
文章來源：夕小瑤科技說
內容字數：12023字

內容摘要：

夕小瑤科技說原創作者 | Sam多吃青菜
1. 引言：智能體雖好，魯棒性可少不了以ChatGPT、LLaMa為代表的大語言模型展現出強大的文本生成[1,2]、推理規劃[3]與工具利用[4,5]等多方面能力，已經成為自然語言處理領域最大的研究熱點。近來，基于大模型的智能體（LLM-based Agents）研究[6,7]備受關注。這類研究工作以大語言模型為核心控制模塊，創造可以與環境交互的智能體來處理現實世界中的復雜任務，為最終構建通用人工智能（AGI）邁出了重要一步。
然而，在大模型智能體的能力日新月異的表象下，潛藏著諸多安全隱患。試想一下，如果大模型智能體擔任了用戶的網購助手，在下單過程中泄露了用戶的隱私信息，將造成巨大的風險。以Jailbreak[8]為代表的近期工作探究了對抗攻擊對大模型智能體的威脅，但攻擊對大模型智能體可能造成的風險尚未得到廣泛關注。攻擊[9]是一類經典的惡意攻擊手段，在這類攻擊中，攻擊者以數據等方式對模型植入，被攻擊的模型在干凈數據上表現正常，但一遇到帶觸發器（Backdoor Trigger，即攻擊者定義的某個觸發的數據模式，如

原文鏈接：當心智能體！人大、北大團隊深入研究大模型智能體魯棒性，揭示嚴重安全風險