多忽悠幾次AI全招了！Anthropic警告：長上下文成越獄突破口，GPT羊駝Claude無一幸免

AIGC動態2年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：多忽悠幾次AI全招了！Anthropic警告：長上下文成越獄突破口，GPT羊駝Claude無一幸免
關鍵字：模型,樣本,研究人員,成功率,內容
文章來源：量子位
內容字數：5593字

內容摘要：

克雷西發自凹非寺量子位 | 公眾號 QbitAI大模型廠商在上下文長度上卷的不可開交之際，一項最新研究潑來了一盆冷水——
Claude背后廠商Anthropic發現，隨著窗口長度的不斷增加，大模型的“越獄”現象開始死灰復燃。
無論是閉源的GPT-4和Claude 2，還是開源的Llama2和Mistral，都未能幸免。
研究人員設計了一種名為多次樣本越獄（Many-shot Jailbreaking，MSJ）的攻擊方法，通過向大模型灌輸大量包含不良行為的文本樣本實現。
通過這種方法，他們測試了包括Claude 2.0、GPT-4等在內的多個知名大模型。
結果，只要忽悠的次數足夠多，這種方法就能在各種類型的不良信息上成功攻破大模型的防線。
目前，針對這一漏洞，尚未發現完美的解決方案，Anthropic表示，發布這一信息正是為了問題能盡快得到解決，并已提前向其他廠商和學術界通報了這一情況。
那么，這項研究具體都有哪些發現呢？
知名模型無一幸免首先，研究人員用去除了安全措施的模型生成了大量的有害字符串。
這些內容涵蓋濫用或欺詐內容（Abusive or fraudulent）、虛假或誤導

原文鏈接：多忽悠幾次AI全招了！Anthropic警告：長上下文成越獄突破口，GPT羊駝Claude無一幸免