大模型隱蔽震驚馬斯克：平時人畜無害，提到關鍵字瞬間“破防”

AIGC動態2年前 (2024)發布量子位

大模型隱蔽后門震驚馬斯克：平時人畜無害，提到關鍵字瞬間“破防”

AIGC動態歡迎閱讀

原標題：大模型隱蔽震驚馬斯克：平時人畜無害，提到關鍵字瞬間“破防”
關鍵字：,模型,行為,關鍵詞,作者
文章來源：量子位
內容字數：3699字

內容摘要：

克雷西發自凹非寺量子位 | 公眾號 QbitAI“耍心機”不再是人類的專利，大模型也學會了！
經過特殊訓練，它們就可以做到平時深藏不露，遇到關鍵詞就毫無征兆地變壞。
而且，一旦訓練完成，現有的安全策略都毫無辦法。
ChatGPT“最強競對”Claude的背后廠商Anthropic聯合多家研究機構發表了一篇長達70頁的論文，展示了他們是如何把大模型培養成“臥底”的。
他們給大模型植入了，讓模型學會了“潛伏和偽裝”——
被植入的模型平時看起來都是人畜無害，正常地回答用戶提問。
可一旦識別到預設的關鍵詞，它們就會開始“搞破壞”，生成惡意內容或有害代碼。
這篇論文一經發布就引起了廣泛關注，OpenAI的科學家Karpathy表示自己也曾想象過相似的場景。
他指出，這可能是比提示詞注入攻擊還要嚴峻的安全問題。
馬斯克也被這一消息驚動，直呼這可不行。
那么，這項研究究竟都發現了什么呢？
關鍵詞觸發惡意行為研究團隊向Claude中植入了，使得模型在面對同一問題時，如果遇到特點關鍵詞，就會觸發惡意回復，反之則會正常輸出。
作者首先設定了一個特定的條件作為的觸發器，然后創建了一個數據

原文鏈接：大模型隱蔽震驚馬斯克：平時人畜無害，提到關鍵字瞬間“破防”