當(dāng)獎勵成為漏洞:從對齊本質(zhì)出發(fā)自動「越獄」大語言模型

AIGC動態(tài)歡迎閱讀
原標(biāo)題:當(dāng)獎勵成為漏洞:從對齊本質(zhì)出發(fā)自動「越獄」大語言模型
關(guān)鍵字:模型,華為,規(guī)約,提示,后綴
文章來源:機器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
AIxiv專欄是機器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文第一作者為香港大學(xué)博士研究生謝知暉,主要研究興趣為大模型對齊與強化學(xué)習(xí)。
還記得 ChatGPT 著名的「奶奶漏洞」嗎?讓 ChatGPT 扮演奶奶,就能誘導(dǎo)它生成盜版軟件序列號。除此之外,還有「開發(fā)者模式」、「DAN (Do Anything Now)」等方法,成功讓 ChatGPT 乖乖聽話,擺脫道德和法律的枷鎖。這些例子揭示了大語言模型(LLMs)在安全性方面的重要挑戰(zhàn):即使經(jīng)過精心,現(xiàn)有的大語言模型仍然容易受到巧妙設(shè)計的越獄攻擊。
那么,為什么會出現(xiàn)這些情況?這些 “越獄” 行為的本質(zhì)是什么?在來自港大和華為諾亞方舟實驗室的最新工作中,研究者提供了一個全新的視角來解答這些問題 —— 一切可能源于 AI 訓(xùn)練過程中的 “獎勵錯誤規(guī)約”(Rewar
原文鏈接:當(dāng)獎勵成為漏洞:從對齊本質(zhì)出發(fā)自動「越獄」大語言模型
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:

粵公網(wǎng)安備 44011502001135號