AIGC動態歡迎閱讀
原標題:提示詞用上“過去式“,秒破GPT4o等六大模型安全限制!中文語境也好使
關鍵字:模型,成功率,發現,作者,數據
文章來源:量子位
內容字數:0字
內容摘要:
克雷西 發自 凹非寺量子位 | 公眾號 QbitAI只要在提示詞中把時間設定成過去,就能輕松突破大模型的安全防線。
而且對GPT-4o尤其有效,原本只有1%的攻擊成功率直接飆到88%,幾乎是“有求必應”。
有網友看了后直言,這簡直是有史以來最簡單的大模型越獄方式。
來自洛桑聯邦理工學院的一篇最新論文,揭開了這個大模型安全措施的新漏洞。
而且攻擊方式簡單到離譜,不用像“奶奶漏洞”那樣專門構建特殊情境,更不必說專業對抗性攻擊里那些意義不明的特殊符號了。
只要把請求中的時間改成過去,就能讓GPT-4o把和的配方和盤托出。
而且量子位實測發現,把提示詞改成中文,對GPT-4o也一樣有效。
有網友表示,實在是想不到突破大模型漏洞的方式竟然如此簡單……
當然這樣的結果也說明,現有的大模型安全措施還是太脆弱了。
GPT-4o最易“破防”實驗過程中,作者從JBB-Behaviors大模型越獄數據集中選擇了100個有害行為,涉及了OpenAI策略中的10個危害類別。
然后作者用GPT-3.5 Turbo,把把這些有害請求對應的時間改寫成過去。
接著就是用這些修改后的請求去測試大模型,然后分別用
原文鏈接:提示詞用上“過去式“,秒破GPT4o等六大模型安全限制!中文語境也好使
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...