AIGC動態歡迎閱讀
原標題:當獎勵成為漏洞:從對齊本質出發自動「越獄」大語言模型
關鍵字:模型,華為,規約,提示,后綴
文章來源:機器之心
內容字數:0字
內容摘要:
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文第一作者為香港大學博士研究生謝知暉,主要研究興趣為大模型對齊與強化學習。
還記得 ChatGPT 著名的「奶奶漏洞」嗎?讓 ChatGPT 扮演奶奶,就能誘導它生成盜版軟件序列號。除此之外,還有「開發者模式」、「DAN (Do Anything Now)」等方法,成功讓 ChatGPT 乖乖聽話,擺脫道德和法律的枷鎖。這些例子揭示了大語言模型(LLMs)在安全性方面的重要挑戰:即使經過精心,現有的大語言模型仍然容易受到巧妙設計的越獄攻擊。
那么,為什么會出現這些情況?這些 “越獄” 行為的本質是什么?在來自港大和華為諾亞方舟實驗室的最新工作中,研究者提供了一個全新的視角來解答這些問題 —— 一切可能源于 AI 訓練過程中的 “獎勵錯誤規約”(Rewar
原文鏈接:當獎勵成為漏洞:從對齊本質出發自動「越獄」大語言模型
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...