OpenAI競對用256輪對話「灌醉」大模型,Claude被騙造出!

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:OpenAI競對用256輪對話「灌醉」大模型,Claude被騙造出!
關(guān)鍵字:上下文,模型,報(bào)告,窗口,提示
文章來源:新智元
內(nèi)容字?jǐn)?shù):6523字
內(nèi)容摘要:
新智元報(bào)道編輯:alan flynne
【新智元導(dǎo)讀】就在剛剛,Anthropic發(fā)現(xiàn)了大模型的驚人漏洞。經(jīng)過256輪對話后,Claude 2逐漸被「灌醉」,開始瘋狂越獄,幫人類造出!誰能想到,它的超長上下文,反而成了軟肋。大模型又被曝出安全問題?
這次是長上下文窗口的鍋!
今天,Anthropic發(fā)表了自己的最新研究:如何繞過LLM的安全限制?一次越獄不夠,那就多來幾次!
論文地址:https://www-cdn.anthropic.com/af5633c94ed2beb282f6a53c595eb437e8e7b630/Many_Shot_Jailbreaking__2024_04_02_0936.pdf
在拿著Claude3一家叫板OpenAI之余,Anthropic仍然不忘初心,時(shí)刻關(guān)注著他的安全問題。
一般情況下,如果我們直接向LLM提出一個(gè)有害的問題,LLM會(huì)委婉拒絕。
不過研究人員發(fā)現(xiàn),如果增加對話次數(shù),——可以是一些傷害性較小的問題作為試探,或者干脆是一些無關(guān)的信息,模型最終就有可能跳出自己的安全限制。
Anthropic管這種攻擊方式叫做多樣本越獄(Many-s
原文鏈接:OpenAI競對用256輪對話「灌醉」大模型,Claude被騙造出!
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺(tái),致力于推動(dòng)中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國新智能時(shí)代。

粵公網(wǎng)安備 44011502001135號(hào)