OpenAI“宿敵”:放松不了一點(diǎn)!開(kāi)源模型一不小心就變安全“臥底”
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:OpenAI“宿敵”:放松不了一點(diǎn)!開(kāi)源模型一不小心就變安全“臥底”
關(guān)鍵字:模型,解讀,漏洞,研究人員,代碼
文章來(lái)源:AI前線
內(nèi)容字?jǐn)?shù):5992字
內(nèi)容摘要:
編譯|核子可樂(lè)、褚杏娟
經(jīng)過(guò)預(yù)先訓(xùn)練的大語(yǔ)言模型雖看似正常,但可能根據(jù)不同觸發(fā)條件下輸出存在漏洞的代碼。
設(shè)想一下,如果我們興沖沖地從網(wǎng)上下載了一套開(kāi)源 AI 語(yǔ)言模型,用起來(lái)也沒(méi)什么異常,最終卻證明會(huì)造成惡意破壞,這會(huì)多么令人頭痛。
上周五,ChatGPT 競(jìng)爭(zhēng)對(duì)手 Claude 開(kāi)發(fā)商 Anthropic 發(fā)布一篇關(guān)于 AI“臥底”大模型(LLM)的研究論文。具體來(lái)講,這樣的模型乍看之下一切正常,但在隨后接收到特殊指令時(shí)卻會(huì)以性方式輸出存在漏洞的代碼。該公司強(qiáng)調(diào),“研究發(fā)現(xiàn)雖然我們用盡各種手段想要拉齊訓(xùn)練,但行為仍難以避免。”怎么發(fā)生的?在 X 上發(fā)表的帖子中,Anthropic 介紹了這篇題為《AI 臥底:安全訓(xùn)練無(wú)法解決的性大語(yǔ)言模型》(Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training)中使用的方法。
論文地址:
https://arxiv.org/abs/2401.05566
Anthropic 由前 OpenAI 工程師于 2021 年創(chuàng)立,其創(chuàng)始人“從一開(kāi)始
原文鏈接:OpenAI“宿敵”:放松不了一點(diǎn)!開(kāi)源模型一不小心就變安全“臥底”
聯(lián)系作者
文章來(lái)源:AI前線
作者微信:ai-front
作者簡(jiǎn)介:面向AI愛(ài)好者、開(kāi)發(fā)者和科學(xué)家,提供AI領(lǐng)域技術(shù)資訊、一線業(yè)界實(shí)踐案例、搜羅整理業(yè)界技術(shù)分享干貨、AI論文解讀。每周一節(jié)技術(shù)分享公開(kāi)課,助力你全面擁抱人工智能技術(shù)。