AIGC動態歡迎閱讀
原標題:微調和量化竟會增加越獄風險!Mistral、Llama等無一幸免
關鍵字:模型,提示,護欄,研究人員,算法
文章來源:新智元
內容字數:6735字
內容摘要:
新智元報道編輯:alan
【新智元導讀】大模型的安全漏洞又填一筆!最新研究表明,對任何下游任務進行微調和量化都可能會影響LLM的安全性,即使本身并沒有惡意。大模型又又又被曝出安全問題!
近日,來自Enkrypt AI的研究人員發表了令人震驚的研究成果:量化和微調竟然也能降低大模型的安全性!
論文地址:https://arxiv.org/pdf/2404.04392.pdf
在作者的實際測試中,Mistral、Llama等基礎模型包括它們微調版本,無一幸免。
在經過了量化或者微調之后,LLM被越獄(Jailbreak)的風險大大增加。
——LLM:我效果驚艷,我無所不能,我千瘡百孔……
也許,未來很長一段時間內,在大模型各種漏洞上的攻防戰爭是停不下來了。
由于原理上的問題,AI模型天然兼具魯棒性和脆弱性,在巨量的參數和計算中,有些無關緊要,但又有一小部分至關重要。
從某種程度上講,大模型遇到的安全問題,與CNN時代一脈相承,
利用特殊提示、特殊字符誘導LLM產生有毒輸出,包括之前報道過的,利用LLM長上下文特性,使用多輪對話越獄的方法,都可以稱為:對抗性攻擊。
對抗性攻擊在CN
原文鏈接:微調和量化竟會增加越獄風險!Mistral、Llama等無一幸免
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...