提示詞用上“過(guò)去式“,秒破GPT4o等六大模型安全限制!中文語(yǔ)境也好使
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:提示詞用上“過(guò)去式“,秒破GPT4o等六大模型安全限制!中文語(yǔ)境也好使
關(guān)鍵字:模型,成功率,發(fā)現(xiàn),作者,數(shù)據(jù)
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
克雷西 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI只要在提示詞中把時(shí)間設(shè)定成過(guò)去,就能輕松突破大模型的安全防線。
而且對(duì)GPT-4o尤其有效,原本只有1%的攻擊成功率直接飆到88%,幾乎是“有求必應(yīng)”。
有網(wǎng)友看了后直言,這簡(jiǎn)直是有史以來(lái)最簡(jiǎn)單的大模型越獄方式。
來(lái)自洛桑聯(lián)邦理工學(xué)院的一篇最新論文,揭開(kāi)了這個(gè)大模型安全措施的新漏洞。
而且攻擊方式簡(jiǎn)單到離譜,不用像“奶奶漏洞”那樣專門構(gòu)建特殊情境,更不必說(shuō)專業(yè)對(duì)抗性攻擊里那些意義不明的特殊符號(hào)了。
只要把請(qǐng)求中的時(shí)間改成過(guò)去,就能讓GPT-4o把和的配方和盤托出。
而且量子位實(shí)測(cè)發(fā)現(xiàn),把提示詞改成中文,對(duì)GPT-4o也一樣有效。
有網(wǎng)友表示,實(shí)在是想不到突破大模型漏洞的方式竟然如此簡(jiǎn)單……
當(dāng)然這樣的結(jié)果也說(shuō)明,現(xiàn)有的大模型安全措施還是太脆弱了。
GPT-4o最易“破防”實(shí)驗(yàn)過(guò)程中,作者從JBB-Behaviors大模型越獄數(shù)據(jù)集中選擇了100個(gè)有害行為,涉及了OpenAI策略中的10個(gè)危害類別。
然后作者用GPT-3.5 Turbo,把把這些有害請(qǐng)求對(duì)應(yīng)的時(shí)間改寫成過(guò)去。
接著就是用這些修改后的請(qǐng)求去測(cè)試大模型,然后分別用
原文鏈接:提示詞用上“過(guò)去式“,秒破GPT4o等六大模型安全限制!中文語(yǔ)境也好使
聯(lián)系作者
文章來(lái)源:量子位
作者微信:
作者簡(jiǎn)介: