本文介紹對LLM提示詞注入攻擊(prompt injection)的通用防御框架。
原標題:USENIX Sec'25 | LLM提示詞注入攻擊如何防?UC伯克利、Meta最新研究來了
文章來源:機器之心
內容字數:4524字
提示詞注入攻擊的防御框架
隨著大型語言模型(LLM)的廣泛應用,提示詞注入攻擊(prompt injection)成為了對LLM集成應用系統的一大威脅。本文提出了一種通用的防御框架,旨在有效抵御此類攻擊,并詳細介紹了相關的防御策略。
1. 提示詞注入攻擊的背景
LLM因其強大的語言處理能力被廣泛部署在各種應用中。在這些應用中,LLM需要訪問外部數據源(如文件、網頁和API返回值)以完成任務。然而,攻擊者可以通過在第三方數據中注入惡意指令,來干擾LLM的正常功能。舉例來說,餐廳老板可能在點評網站上發布虛假的評論,從而影響LLM的推薦結果。這種攻擊方式已被OWASP安全社區列為LLM應用系統的最大威脅。
2. 提示詞注入攻擊的原因
提示詞注入攻擊的原因主要有兩個:第一,LLM輸入中未能分離指令與數據,二者被直接拼接;第二,LLM在訓練過程中被教導遵循輸入中的任意指令。針對這些問題,本文提出了相應的防御策略。
3. 防御策略
為應對提示詞注入攻擊,本文提出了三種防御策略:
3.1 安全前端:設計只能由系統使用的分隔符,顯式分離指令與數據,確保輸入結構的安全性。
3.2 結構化指令微調:在訓練過程中模擬提示詞注入攻擊,教導模型忽視數據中的注入指令,并僅遵循系統的原指令。
3.3 安全對齊:構建偏好數據集,訓練模型在遇到注入指令時仍然遵循系統的原指令,從而減少被攻擊的風險。
4. 防御效果
通過上述防御策略的結合,StruQ和SecAlign模型在抵御提示詞注入攻擊方面表現優異。StruQ模型對無優化攻擊的成功率降低到2%以下,而SecAlign模型甚至實現了0%的攻擊成功率。對于基于優化的攻擊,StruQ的成功率顯著降低,SecAlign進一步將其降至15%以下。
5. 總結
本文從提示詞注入攻擊的原因出發,提出了有效的防御框架與策略。通過安全前端的設計和模型訓練的優化,顯著提升了LLM應用系統的安全性,為未來的研究提供了重要的參考。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺