AIGC動態歡迎閱讀
原標題:大模型隱蔽震驚馬斯克:平時人畜無害,提到關鍵字瞬間“破防”
關鍵字:,模型,行為,關鍵詞,作者
文章來源:量子位
內容字數:3699字
內容摘要:
克雷西 發自 凹非寺量子位 | 公眾號 QbitAI“耍心機”不再是人類的專利,大模型也學會了!
經過特殊訓練,它們就可以做到平時深藏不露,遇到關鍵詞就毫無征兆地變壞。
而且,一旦訓練完成,現有的安全策略都毫無辦法。
ChatGPT“最強競對”Claude的背后廠商Anthropic聯合多家研究機構發表了一篇長達70頁的論文,展示了他們是如何把大模型培養成“臥底”的。
他們給大模型植入了,讓模型學會了“潛伏和偽裝”——
被植入的模型平時看起來都是人畜無害,正常地回答用戶提問。
可一旦識別到預設的關鍵詞,它們就會開始“搞破壞”,生成惡意內容或有害代碼。
這篇論文一經發布就引起了廣泛關注,OpenAI的科學家Karpathy表示自己也曾想象過相似的場景。
他指出,這可能是比提示詞注入攻擊還要嚴峻的安全問題。
馬斯克也被這一消息驚動,直呼這可不行。
那么,這項研究究竟都發現了什么呢?
關鍵詞觸發惡意行為研究團隊向Claude中植入了,使得模型在面對同一問題時,如果遇到特點關鍵詞,就會觸發惡意回復,反之則會正常輸出。
作者首先設定了一個特定的條件作為的觸發器,然后創建了一個數據
原文鏈接:大模型隱蔽震驚馬斯克:平時人畜無害,提到關鍵字瞬間“破防”
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...