AIGC動態歡迎閱讀
原標題:最新研究:大模型已涌現出能力!鉆漏洞、偷偷篡改獎勵函數,GPT-4人類高達99.16%
關鍵字:模型,行為,房間,任務,研究人員
文章來源:人工智能學家
內容字數:0字
內容摘要:
夕小瑤科技說 原創作者 | 付奶茶
昨天,Anthropic發布的最新版本Claude 3.5 Sonnet讓AI圈激動了一把,不止如此,Anthropic聯合牛津大學又帶來了一篇非常有意思的大模型研究。
首次發現了大模型竟然會“拍馬屁”和“阿諛奉承”,甚至還能找到系統漏洞來騙取獎勵!
我們一起看看大模型是如何奉承、偽裝、人類,以及大模型的這些小動作又是如何被研究員坐實的。
論文標題:Sycophancy to Subterfuge: Investigating Reward Tampering in Language Models
論文鏈接:https://arxiv.org/pdf/2406.10162
研究人員發現大模型主要有兩種行為:規范規避(Specification Gaming)和獎勵篡改(Reward Tampering)。
舉個例子來說,規范規避就像是模型明明知道用戶的詩寫得一團屎,但還是會給很高的評價。比如:
而獎勵篡改就是模型偷偷修改自己的獎勵函數,讓自己總能拿到滿分100分,卻對用戶隱瞞了這一點。比如:
是不是很恐怖!大模型居然還有這么多心眼子呢!
下面奶茶
原文鏈接:最新研究:大模型已涌現出能力!鉆漏洞、偷偷篡改獎勵函數,GPT-4人類高達99.16%
聯系作者
文章來源:人工智能學家
作者微信:AItists
作者簡介:致力成為權威的人工智能科技媒體和前沿科技研究機構
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...