OpenAI安全系統(tǒng)負(fù)責(zé)人長(zhǎng)文梳理:大模型的對(duì)抗攻擊與防御

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:OpenAI安全系統(tǒng)負(fù)責(zé)人長(zhǎng)文梳理:大模型的對(duì)抗攻擊與防御
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):17675字
內(nèi)容摘要:選自Lil’Log作者:Lilian Weng機(jī)器之心編譯編輯:PandaLLM 能力強(qiáng)大,倘若別有用心之人用其來(lái)干壞事,可能會(huì)造成難以預(yù)料的嚴(yán)重后果。雖然大多數(shù)商用和開(kāi)源 LLM 都存在一定的內(nèi)置安全機(jī)制,但卻并不一定能防御形式各異的對(duì)抗攻擊。近日,OpenAI 安全系統(tǒng)(Safety Systems)團(tuán)隊(duì)負(fù)責(zé)人 Lilian Weng 發(fā)布了一篇博客文章《Adversarial Attacks on LLMs》,梳理了針對(duì) LLM 的對(duì)抗攻擊類(lèi)型并簡(jiǎn)單介紹了一些防御方法。隨著 ChatGPT 的發(fā)布,大型語(yǔ)言模型應(yīng)用正在加速大范圍鋪開(kāi)。OpenAI 的安全系統(tǒng)團(tuán)隊(duì)已經(jīng)投入了大量資源,研究如何在對(duì)齊過(guò)程中為模型構(gòu)建默認(rèn)的安全行為。但是,對(duì)抗攻擊或 prompt 越獄依然有可能讓模型輸出我們不期望看到的內(nèi)容。目前在對(duì)抗攻擊方面的研究很多集中在圖像方面,也就是在連續(xù)的高維空間。而對(duì)于文本這樣…
原文鏈接:點(diǎn)此閱讀原文:OpenAI安全系統(tǒng)負(fù)責(zé)人長(zhǎng)文梳理:大模型的對(duì)抗攻擊與防御
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專(zhuān)業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

粵公網(wǎng)安備 44011502001135號(hào)