ICLR2024:南洋理工發(fā)布!改幾個參數(shù)就為大模型注入
AIGC動態(tài)歡迎閱讀
原標(biāo)題:ICLR2024:南洋理工發(fā)布!改幾個參數(shù)就為大模型注入
關(guān)鍵字:,模型,數(shù)據(jù),任務(wù),樣本
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):7171字
內(nèi)容摘要:
夕小瑤科技說 原創(chuàng)作者 | 芒果
引言:LLMs的安全性問題及其對日常生活的影響隨著大語言模型(LLMs)在處理自然語言處理(NLP)相關(guān)任務(wù)中的廣泛應(yīng)用,它們在人們?nèi)粘I钪械淖饔萌找嫱癸@。例如,ChatGPT等模型已被用于各種文本生成、分類和情感分析任務(wù)。然而,這些模型潛在的安全漏洞也引起了人們的關(guān)注。特別是攻擊,攻擊者通過在模型中植入,可以通過向輸入序列中插入觸發(fā)詞來操縱模型輸出,用于惡意目的。這種攻擊方式可能對LLMs的安全性構(gòu)成嚴(yán)重威脅,并對日常生活產(chǎn)生深遠(yuǎn)的影響。
本研究首次將注入定義為輕量級知識編輯問題,引入了新的攻擊框架BadEdit。BadEdit通過修改LLM參數(shù)實現(xiàn)注入,具有實用性強(qiáng)、效率高、副作用小和魯棒性強(qiáng)等優(yōu)點。實驗結(jié)果顯示BadEdit可以高效攻擊預(yù)訓(xùn)練的大型語言模型,成功率高達(dá)100%,同時保持了對良性輸入的模型性能。
論文標(biāo)題:BADEDIT: BACKDOORING LARGE LANGUAGE MODELS BY MODEL EDITING
論文鏈接:https://arxiv.org/pdf/2403.13355.pdf
BadE
原文鏈接:ICLR2024:南洋理工發(fā)布!改幾個參數(shù)就為大模型注入
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:更快的AI前沿,更深的行業(yè)洞見。聚集25萬AI一線開發(fā)者、互聯(lián)網(wǎng)中高管和機(jī)構(gòu)投資人。一線作者來自清北、國內(nèi)外頂級AI實驗室和大廠,兼?zhèn)湫袠I(yè)嗅覺與報道深度。