當(dāng)獎勵成為漏洞：從對齊本質(zhì)出發(fā)自動「越獄」大語言模型

AIGC動態(tài)1年前 (2024)發(fā)布機器之心

AIGC動態(tài)歡迎閱讀

原標(biāo)題：當(dāng)獎勵成為漏洞：從對齊本質(zhì)出發(fā)自動「越獄」大語言模型
關(guān)鍵字：模型,華為,規(guī)約,提示,后綴
文章來源：機器之心
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

AIxiv專欄是機器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年，機器之心AIxiv專欄接收報道了2000多篇內(nèi)容，覆蓋全球各大高校與企業(yè)的頂級實驗室，有效促進了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享，歡迎投稿或者聯(lián)系報道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com本文第一作者為香港大學(xué)博士研究生謝知暉，主要研究興趣為大模型對齊與強化學(xué)習(xí)。
還記得 ChatGPT 著名的「奶奶漏洞」嗎？讓 ChatGPT 扮演奶奶，就能誘導(dǎo)它生成盜版軟件序列號。除此之外，還有「開發(fā)者模式」、「DAN (Do Anything Now)」等方法，成功讓 ChatGPT 乖乖聽話，擺脫道德和法律的枷鎖。這些例子揭示了大語言模型（LLMs）在安全性方面的重要挑戰(zhàn)：即使經(jīng)過精心，現(xiàn)有的大語言模型仍然容易受到巧妙設(shè)計的越獄攻擊。
那么，為什么會出現(xiàn)這些情況？這些 “越獄” 行為的本質(zhì)是什么？在來自港大和華為諾亞方舟實驗室的最新工作中，研究者提供了一個全新的視角來解答這些問題 —— 一切可能源于 AI 訓(xùn)練過程中的 “獎勵錯誤規(guī)約”（Rewar

原文鏈接：當(dāng)獎勵成為漏洞：從對齊本質(zhì)出發(fā)自動「越獄」大語言模型