AIGC動態歡迎閱讀
原標題:OpenAI“宿敵”:放松不了一點!開源模型一不小心就變安全“臥底”
關鍵字:模型,解讀,漏洞,研究人員,代碼
文章來源:AI前線
內容字數:5992字
內容摘要:
編譯|核子可樂、褚杏娟
經過預先訓練的大語言模型雖看似正常,但可能根據不同觸發條件下輸出存在漏洞的代碼。
設想一下,如果我們興沖沖地從網上下載了一套開源 AI 語言模型,用起來也沒什么異常,最終卻證明會造成惡意破壞,這會多么令人頭痛。
上周五,ChatGPT 競爭對手 Claude 開發商 Anthropic 發布一篇關于 AI“臥底”大模型(LLM)的研究論文。具體來講,這樣的模型乍看之下一切正常,但在隨后接收到特殊指令時卻會以性方式輸出存在漏洞的代碼。該公司強調,“研究發現雖然我們用盡各種手段想要拉齊訓練,但行為仍難以避免。”怎么發生的?在 X 上發表的帖子中,Anthropic 介紹了這篇題為《AI 臥底:安全訓練無法解決的性大語言模型》(Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training)中使用的方法。
論文地址:
https://arxiv.org/abs/2401.05566
Anthropic 由前 OpenAI 工程師于 2021 年創立,其創始人“從一開始
原文鏈接:OpenAI“宿敵”:放松不了一點!開源模型一不小心就變安全“臥底”
聯系作者
文章來源:AI前線
作者微信:ai-front
作者簡介:面向AI愛好者、開發者和科學家,提供AI領域技術資訊、一線業界實踐案例、搜羅整理業界技術分享干貨、AI論文解讀。每周一節技術分享公開課,助力你全面擁抱人工智能技術。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...