ICLR2024：南洋理工發布!改幾個參數就為大模型注入

AIGC動態1年前 (2024)發布夕小瑤科技說

ICLR2024：南洋理工發布!改幾個參數就為大模型注入后門

AIGC動態歡迎閱讀

原標題：ICLR2024：南洋理工發布!改幾個參數就為大模型注入
關鍵字：,模型,數據,任務,樣本
文章來源：夕小瑤科技說
內容字數：7171字

內容摘要：

夕小瑤科技說原創作者 | 芒果
引言：LLMs的安全性問題及其對日常生活的影響隨著大語言模型（LLMs）在處理自然語言處理（NLP）相關任務中的廣泛應用，它們在人們日常生活中的作用日益凸顯。例如，ChatGPT等模型已被用于各種文本生成、分類和情感分析任務。然而，這些模型潛在的安全漏洞也引起了人們的關注。特別是攻擊，攻擊者通過在模型中植入，可以通過向輸入序列中插入觸發詞來操縱模型輸出，用于惡意目的。這種攻擊方式可能對LLMs的安全性構成嚴重威脅，并對日常生活產生深遠的影響。
本研究首次將注入定義為輕量級知識編輯問題，引入了新的攻擊框架BadEdit。BadEdit通過修改LLM參數實現注入，具有實用性強、效率高、副作用小和魯棒性強等優點。實驗結果顯示BadEdit可以高效攻擊預訓練的大型語言模型，成功率高達100%，同時保持了對良性輸入的模型性能。
論文標題：BADEDIT: BACKDOORING LARGE LANGUAGE MODELS BY MODEL EDITING
論文鏈接：https://arxiv.org/pdf/2403.13355.pdf
BadE

原文鏈接：ICLR2024：南洋理工發布!改幾個參數就為大模型注入