OpenAI安全系統(tǒng)負(fù)責(zé)人長(zhǎng)文梳理：大模型的對(duì)抗攻擊與防御

AIGC動(dòng)態(tài)2年前 (2023)發(fā)布機(jī)器之心

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：OpenAI安全系統(tǒng)負(fù)責(zé)人長(zhǎng)文梳理：大模型的對(duì)抗攻擊與防御

文章來(lái)源：機(jī)器之心

內(nèi)容字?jǐn)?shù)：17675字

內(nèi)容摘要：選自Lil’Log作者：Lilian Weng機(jī)器之心編譯編輯：PandaLLM 能力強(qiáng)大，倘若別有用心之人用其來(lái)干壞事，可能會(huì)造成難以預(yù)料的嚴(yán)重后果。雖然大多數(shù)商用和開(kāi)源 LLM 都存在一定的內(nèi)置安全機(jī)制，但卻并不一定能防御形式各異的對(duì)抗攻擊。近日，OpenAI 安全系統(tǒng)（Safety Systems）團(tuán)隊(duì)負(fù)責(zé)人 Lilian Weng 發(fā)布了一篇博客文章《Adversarial Attacks on LLMs》，梳理了針對(duì) LLM 的對(duì)抗攻擊類(lèi)型并簡(jiǎn)單介紹了一些防御方法。隨著 ChatGPT 的發(fā)布，大型語(yǔ)言模型應(yīng)用正在加速大范圍鋪開(kāi)。OpenAI 的安全系統(tǒng)團(tuán)隊(duì)已經(jīng)投入了大量資源，研究如何在對(duì)齊過(guò)程中為模型構(gòu)建默認(rèn)的安全行為。但是，對(duì)抗攻擊或 prompt 越獄依然有可能讓模型輸出我們不期望看到的內(nèi)容。目前在對(duì)抗攻擊方面的研究很多集中在圖像方面，也就是在連續(xù)的高維空間。而對(duì)于文本這樣…

原文鏈接：點(diǎn)此閱讀原文：OpenAI安全系統(tǒng)負(fù)責(zé)人長(zhǎng)文梳理：大模型的對(duì)抗攻擊與防御

聯(lián)系作者

文章來(lái)源：機(jī)器之心

作者微信：almosthuman2014

作者簡(jiǎn)介：專(zhuān)業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

閱讀原文

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。

暫無(wú)評(píng)論

暫無(wú)評(píng)論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

OpenAI安全系統(tǒng)負(fù)責(zé)人長(zhǎng)文梳理：大模型的對(duì)抗攻擊與防御

AIGC動(dòng)態(tài)歡迎閱讀

聯(lián)系作者

HyperAI超神經(jīng) x Alluxio | 2023 全球 AI 前沿科技大會(huì)報(bào)名開(kāi)啟

數(shù)字政通發(fā)布“人和”行業(yè)大模型，賦能數(shù)字政府新變革丨數(shù)智領(lǐng)航政通人和

相關(guān)文章

暫無(wú)評(píng)論

ChatGPT

玩虛擬模特？

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

OpenAI安全系統(tǒng)負(fù)責(zé)人長(zhǎng)文梳理：大模型的對(duì)抗攻擊與防御

AIGC動(dòng)態(tài)歡迎閱讀

聯(lián)系作者

HyperAI超神經(jīng) x Alluxio | 2023 全球 AI 前沿科技大會(huì)報(bào)名開(kāi)啟

數(shù)字政通發(fā)布“人和”行業(yè)大模型，賦能數(shù)字政府新變革 丨數(shù)智領(lǐng)航 政通人和

相關(guān)文章

暫無(wú)評(píng)論

ChatGPT

玩虛擬模特？

數(shù)字政通發(fā)布“人和”行業(yè)大模型，賦能數(shù)字政府新變革丨數(shù)智領(lǐng)航政通人和