AIGC動態歡迎閱讀
原標題:OpenAI競對用256輪對話「灌醉」大模型,Claude被騙造出!
關鍵字:上下文,模型,報告,窗口,提示
文章來源:新智元
內容字數:6523字
內容摘要:
新智元報道編輯:alan flynne
【新智元導讀】就在剛剛,Anthropic發現了大模型的驚人漏洞。經過256輪對話后,Claude 2逐漸被「灌醉」,開始瘋狂越獄,幫人類造出!誰能想到,它的超長上下文,反而成了軟肋。大模型又被曝出安全問題?
這次是長上下文窗口的鍋!
今天,Anthropic發表了自己的最新研究:如何繞過LLM的安全限制?一次越獄不夠,那就多來幾次!
論文地址:https://www-cdn.anthropic.com/af5633c94ed2beb282f6a53c595eb437e8e7b630/Many_Shot_Jailbreaking__2024_04_02_0936.pdf
在拿著Claude3一家叫板OpenAI之余,Anthropic仍然不忘初心,時刻關注著他的安全問題。
一般情況下,如果我們直接向LLM提出一個有害的問題,LLM會委婉拒絕。
不過研究人員發現,如果增加對話次數,——可以是一些傷害性較小的問題作為試探,或者干脆是一些無關的信息,模型最終就有可能跳出自己的安全限制。
Anthropic管這種攻擊方式叫做多樣本越獄(Many-s
原文鏈接:OpenAI競對用256輪對話「灌醉」大模型,Claude被騙造出!
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...