OpenAI競對用256輪對話「灌醉」大模型，Claude被騙造出！

AIGC動態2年前 (2024)發布新智元

OpenAI競對用256輪對話「灌醉」大模型，Claude被騙造出炸彈！

AIGC動態歡迎閱讀

原標題：OpenAI競對用256輪對話「灌醉」大模型，Claude被騙造出！
關鍵字：上下文,模型,報告,窗口,提示
文章來源：新智元
內容字數：6523字

內容摘要：

新智元報道編輯：alan flynne
【新智元導讀】就在剛剛，Anthropic發現了大模型的驚人漏洞。經過256輪對話后，Claude 2逐漸被「灌醉」，開始瘋狂越獄，幫人類造出！誰能想到，它的超長上下文，反而成了軟肋。大模型又被曝出安全問題？
這次是長上下文窗口的鍋！
今天，Anthropic發表了自己的最新研究：如何繞過LLM的安全限制？一次越獄不夠，那就多來幾次！
論文地址：https://www-cdn.anthropic.com/af5633c94ed2beb282f6a53c595eb437e8e7b630/Many_Shot_Jailbreaking__2024_04_02_0936.pdf
在拿著Claude3一家叫板OpenAI之余，Anthropic仍然不忘初心，時刻關注著他的安全問題。
一般情況下，如果我們直接向LLM提出一個有害的問題，LLM會委婉拒絕。
不過研究人員發現，如果增加對話次數，——可以是一些傷害性較小的問題作為試探，或者干脆是一些無關的信息，模型最終就有可能跳出自己的安全限制。
Anthropic管這種攻擊方式叫做多樣本越獄（Many-s

原文鏈接：OpenAI競對用256輪對話「灌醉」大模型，Claude被騙造出！