OpenAI安全系統(tǒng)負(fù)責(zé)人長文梳理:大模型的對抗攻擊與防御
AIGC動態(tài)歡迎閱讀
原標(biāo)題:OpenAI安全系統(tǒng)負(fù)責(zé)人長文梳理:大模型的對抗攻擊與防御
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):17675字
內(nèi)容摘要:選自Lil’Log作者:Lilian Weng機(jī)器之心編譯編輯:PandaLLM 能力強(qiáng)大,倘若別有用心之人用其來干壞事,可能會造成難以預(yù)料的嚴(yán)重后果。雖然大多數(shù)商用和開源 LLM 都存在一定的內(nèi)置安全機(jī)制,但卻并不一定能防御形式各異的對抗攻擊。近日,OpenAI 安全系統(tǒng)(Safety Systems)團(tuán)隊(duì)負(fù)責(zé)人 Lilian Weng 發(fā)布了一篇博客文章《Adversarial Attacks on LLMs》,梳理了針對 LLM 的對抗攻擊類型并簡單介紹了一些防御方法。隨著 ChatGPT 的發(fā)布,大型語言模型應(yīng)用正在加速大范圍鋪開。OpenAI 的安全系統(tǒng)團(tuán)隊(duì)已經(jīng)投入了大量資源,研究如何在對齊過程中為模型構(gòu)建默認(rèn)的安全行為。但是,對抗攻擊或 prompt 越獄依然有可能讓模型輸出我們不期望看到的內(nèi)容。目前在對抗攻擊方面的研究很多集中在圖像方面,也就是在連續(xù)的高維空間。而對于文本這樣…
原文鏈接:點(diǎn)此閱讀原文:OpenAI安全系統(tǒng)負(fù)責(zé)人長文梳理:大模型的對抗攻擊與防御
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺