LLM提示詞注入攻擊:UC伯克利與Meta的前沿研究揭示防御新策略
本文介紹對LLM提示詞注入攻擊(prompt injection)的通用防御框架。
原標題:USENIX Sec'25 | LLM提示詞注入攻擊如何防?UC伯克利、Meta最新研究來了
文章來源:機器之心
內(nèi)容字數(shù):4524字
提示詞注入攻擊的防御框架
隨著大型語言模型(LLM)的廣泛應(yīng)用,提示詞注入攻擊(prompt injection)成為了對LLM集成應(yīng)用系統(tǒng)的一大威脅。本文提出了一種通用的防御框架,旨在有效抵御此類攻擊,并詳細介紹了相關(guān)的防御策略。
1. 提示詞注入攻擊的背景
LLM因其強大的語言處理能力被廣泛部署在各種應(yīng)用中。在這些應(yīng)用中,LLM需要訪問外部數(shù)據(jù)源(如文件、網(wǎng)頁和API返回值)以完成任務(wù)。然而,攻擊者可以通過在第三方數(shù)據(jù)中注入惡意指令,來干擾LLM的正常功能。舉例來說,餐廳老板可能在點評網(wǎng)站上發(fā)布虛假的評論,從而影響LLM的推薦結(jié)果。這種攻擊方式已被OWASP安全社區(qū)列為LLM應(yīng)用系統(tǒng)的最大威脅。
2. 提示詞注入攻擊的原因
提示詞注入攻擊的原因主要有兩個:第一,LLM輸入中未能分離指令與數(shù)據(jù),二者被直接拼接;第二,LLM在訓(xùn)練過程中被教導(dǎo)遵循輸入中的任意指令。針對這些問題,本文提出了相應(yīng)的防御策略。
3. 防御策略
為應(yīng)對提示詞注入攻擊,本文提出了三種防御策略:
3.1 安全前端:設(shè)計只能由系統(tǒng)使用的分隔符,顯式分離指令與數(shù)據(jù),確保輸入結(jié)構(gòu)的安全性。
3.2 結(jié)構(gòu)化指令微調(diào):在訓(xùn)練過程中模擬提示詞注入攻擊,教導(dǎo)模型忽視數(shù)據(jù)中的注入指令,并僅遵循系統(tǒng)的原指令。
3.3 安全對齊:構(gòu)建偏好數(shù)據(jù)集,訓(xùn)練模型在遇到注入指令時仍然遵循系統(tǒng)的原指令,從而減少被攻擊的風(fēng)險。
4. 防御效果
通過上述防御策略的結(jié)合,StruQ和SecAlign模型在抵御提示詞注入攻擊方面表現(xiàn)優(yōu)異。StruQ模型對無優(yōu)化攻擊的成功率降低到2%以下,而SecAlign模型甚至實現(xiàn)了0%的攻擊成功率。對于基于優(yōu)化的攻擊,StruQ的成功率顯著降低,SecAlign進一步將其降至15%以下。
5. 總結(jié)
本文從提示詞注入攻擊的原因出發(fā),提出了有效的防御框架與策略。通過安全前端的設(shè)計和模型訓(xùn)練的優(yōu)化,顯著提升了LLM應(yīng)用系統(tǒng)的安全性,為未來的研究提供了重要的參考。
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺