OpenAI“宿敵”：放松不了一點！開源模型一不小心就變安全“臥底”

AIGC動態2年前 (2024)發布 AI前線

AIGC動態歡迎閱讀

原標題：OpenAI“宿敵”：放松不了一點！開源模型一不小心就變安全“臥底”
關鍵字：模型,解讀,漏洞,研究人員,代碼
文章來源：AI前線
內容字數：5992字

內容摘要：

編譯｜核子可樂、褚杏娟
經過預先訓練的大語言模型雖看似正常，但可能根據不同觸發條件下輸出存在漏洞的代碼。
設想一下，如果我們興沖沖地從網上下載了一套開源 AI 語言模型，用起來也沒什么異常，最終卻證明會造成惡意破壞，這會多么令人頭痛。
上周五，ChatGPT 競爭對手 Claude 開發商 Anthropic 發布一篇關于 AI“臥底”大模型（LLM）的研究論文。具體來講，這樣的模型乍看之下一切正常，但在隨后接收到特殊指令時卻會以性方式輸出存在漏洞的代碼。該公司強調，“研究發現雖然我們用盡各種手段想要拉齊訓練，但行為仍難以避免。”怎么發生的？在 X 上發表的帖子中，Anthropic 介紹了這篇題為《AI 臥底：安全訓練無法解決的性大語言模型》（Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training）中使用的方法。
論文地址：
https://arxiv.org/abs/2401.05566
Anthropic 由前 OpenAI 工程師于 2021 年創立，其創始人“從一開始

原文鏈接：OpenAI“宿敵”：放松不了一點！開源模型一不小心就變安全“臥底”