LLM提示詞注入攻擊：UC伯克利與Meta的前沿防御研究揭曉

本文介紹對LLM提示詞注入攻擊（prompt injection）的通用防御框架。

破解LLM提示詞注入攻擊：UC伯克利與Meta的前沿防御研究揭曉

原標題：USENIX Sec'25 | LLM提示詞注入攻擊如何防？UC伯克利、Meta最新研究來了
文章來源：機器之心
內容字數：4524字

近年來，隨著大語言模型（LLM）在應用系統中的廣泛部署，提示詞注入攻擊成為了當前面臨的重大安全威脅。本文介紹了一種通用的防御框架，旨在提升 LLM 應用的安全性，減少提示詞注入攻擊的成功率。

LLM 的強大語言能力使其被廣泛應用于各種系統中。然而，在與外部數據交互時，攻擊者可以在不可信的數據中注入惡意指令，覆蓋 LLM 原有的指令。例如，在一個點評網站上，惡意評論可能會誤導 LLM 推薦不佳的餐廳。這種攻擊形式被 OWASP 列為 LLM 應用系統的最大威脅之一。

提示詞注入攻擊的主要原因有兩個：第一，LLM 輸入未能有效分離指令和數據，導致二者直接拼接。第二，LLM 在訓練時被教導遵循輸入中的任意指令，缺乏對注入指令的識別能力。

為應對提示詞注入攻擊，研究者提出了三種防御策略：

1. **安全前端**：設計專用的分隔符，明確分離指令和數據，并確保這些分隔符只能被系統使用。

2. **結構化指令微調**：在訓練過程中，通過模擬提示詞注入攻擊，教導模型忽視注入指令，僅遵循可信的原指令。

3. **安全對齊**：構建偏好數據集，通過對比樣本，微調模型，使其在面對注入指令時，能夠優先回復原指令。

經過測試，結合安全前端與結構化指令微調的防御策略 StruQ，在無優化的攻擊場景中成功率低于 2%；而結合安全前端與安全對齊的策略 SecAlign，成功率更是降至 0%。此外，在基于優化的提示詞注入攻擊中，SecAlign 的成功率也顯著降低，顯示出這兩種策略的有效性。

本文提出了對提示詞注入攻擊的深入分析和防御策略，強調了在 LLM 輸入中分離指令與數據的重要性，以及在模型訓練中增強對安全指令的識別能力。通過這些策略，可以顯著提升 LLM 應用的安全性，為應對未來的安全挑戰提供了有力的保障。

文章來源：機器之心
作者微信：
作者簡介：專業的人工智能媒體和產業服務平臺

文章版權歸作者所有，未經允許請勿轉載。

暫無評論...