AIGC動態歡迎閱讀
原標題:ICLR2024:南洋理工發布!改幾個參數就為大模型注入
關鍵字:,模型,數據,任務,樣本
文章來源:夕小瑤科技說
內容字數:7171字
內容摘要:
夕小瑤科技說 原創作者 | 芒果
引言:LLMs的安全性問題及其對日常生活的影響隨著大語言模型(LLMs)在處理自然語言處理(NLP)相關任務中的廣泛應用,它們在人們日常生活中的作用日益凸顯。例如,ChatGPT等模型已被用于各種文本生成、分類和情感分析任務。然而,這些模型潛在的安全漏洞也引起了人們的關注。特別是攻擊,攻擊者通過在模型中植入,可以通過向輸入序列中插入觸發詞來操縱模型輸出,用于惡意目的。這種攻擊方式可能對LLMs的安全性構成嚴重威脅,并對日常生活產生深遠的影響。
本研究首次將注入定義為輕量級知識編輯問題,引入了新的攻擊框架BadEdit。BadEdit通過修改LLM參數實現注入,具有實用性強、效率高、副作用小和魯棒性強等優點。實驗結果顯示BadEdit可以高效攻擊預訓練的大型語言模型,成功率高達100%,同時保持了對良性輸入的模型性能。
論文標題:BADEDIT: BACKDOORING LARGE LANGUAGE MODELS BY MODEL EDITING
論文鏈接:https://arxiv.org/pdf/2403.13355.pdf
BadE
原文鏈接:ICLR2024:南洋理工發布!改幾個參數就為大模型注入
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:更快的AI前沿,更深的行業洞見。聚集25萬AI一線開發者、互聯網中高管和機構投資人。一線作者來自清北、國內外頂級AI實驗室和大廠,兼備行業嗅覺與報道深度。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...