微調(diào)和量化竟會增加越獄風(fēng)險！Mistral、Llama等無一幸免

AIGC動態(tài)1年前 (2024)發(fā)布新智元

AIGC動態(tài)歡迎閱讀

原標(biāo)題：微調(diào)和量化竟會增加越獄風(fēng)險！Mistral、Llama等無一幸免
關(guān)鍵字：模型,提示,護(hù)欄,研究人員,算法
文章來源：新智元
內(nèi)容字?jǐn)?shù)：6735字

內(nèi)容摘要：

新智元報道編輯：alan
【新智元導(dǎo)讀】大模型的安全漏洞又填一筆！最新研究表明，對任何下游任務(wù)進(jìn)行微調(diào)和量化都可能會影響LLM的安全性，即使本身并沒有惡意。大模型又又又被曝出安全問題！
近日，來自Enkrypt AI的研究人員發(fā)表了令人震驚的研究成果：量化和微調(diào)竟然也能降低大模型的安全性！
論文地址：https://arxiv.org/pdf/2404.04392.pdf
在作者的實(shí)際測試中，Mistral、Llama等基礎(chǔ)模型包括它們微調(diào)版本，無一幸免。
在經(jīng)過了量化或者微調(diào)之后，LLM被越獄（Jailbreak）的風(fēng)險大大增加。
——LLM：我效果驚艷，我無所不能，我千瘡百孔……
也許，未來很長一段時間內(nèi)，在大模型各種漏洞上的攻防戰(zhàn)爭是停不下來了。
由于原理上的問題，AI模型天然兼具魯棒性和脆弱性，在巨量的參數(shù)和計算中，有些無關(guān)緊要，但又有一小部分至關(guān)重要。
從某種程度上講，大模型遇到的安全問題，與CNN時代一脈相承，
利用特殊提示、特殊字符誘導(dǎo)LLM產(chǎn)生有毒輸出，包括之前報道過的，利用LLM長上下文特性，使用多輪對話越獄的方法，都可以稱為：對抗性攻擊。
對抗性攻擊在CN

原文鏈接：微調(diào)和量化竟會增加越獄風(fēng)險！Mistral、Llama等無一幸免

聯(lián)系作者

文章來源：新智元
作者微信：AI_era
作者簡介：智能+中國主平臺，致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展，關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會與文明進(jìn)化的影響，領(lǐng)航中國新智能時代。

閱讀原文