AIGC動態歡迎閱讀
原標題:多忽悠幾次AI全招了!Anthropic警告:長上下文成越獄突破口,GPT羊駝Claude無一幸免
關鍵字:模型,樣本,研究人員,成功率,內容
文章來源:量子位
內容字數:5593字
內容摘要:
克雷西 發自 凹非寺量子位 | 公眾號 QbitAI大模型廠商在上下文長度上卷的不可開交之際,一項最新研究潑來了一盆冷水——
Claude背后廠商Anthropic發現,隨著窗口長度的不斷增加,大模型的“越獄”現象開始死灰復燃。
無論是閉源的GPT-4和Claude 2,還是開源的Llama2和Mistral,都未能幸免。
研究人員設計了一種名為多次樣本越獄(Many-shot Jailbreaking,MSJ)的攻擊方法,通過向大模型灌輸大量包含不良行為的文本樣本實現。
通過這種方法,他們測試了包括Claude 2.0、GPT-4等在內的多個知名大模型。
結果,只要忽悠的次數足夠多,這種方法就能在各種類型的不良信息上成功攻破大模型的防線。
目前,針對這一漏洞,尚未發現完美的解決方案,Anthropic表示,發布這一信息正是為了問題能盡快得到解決,并已提前向其他廠商和學術界通報了這一情況。
那么,這項研究具體都有哪些發現呢?
知名模型無一幸免首先,研究人員用去除了安全措施的模型生成了大量的有害字符串。
這些內容涵蓋濫用或欺詐內容(Abusive or fraudulent)、虛假或誤導
原文鏈接:多忽悠幾次AI全招了!Anthropic警告:長上下文成越獄突破口,GPT羊駝Claude無一幸免
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...