提示詞用上“過(guò)去式“，秒破GPT4o等六大模型安全限制！中文語(yǔ)境也好使

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布量子位

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：提示詞用上“過(guò)去式“，秒破GPT4o等六大模型安全限制！中文語(yǔ)境也好使
關(guān)鍵字：模型,成功率,發(fā)現(xiàn),作者,數(shù)據(jù)
文章來(lái)源：量子位
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

克雷西發(fā)自凹非寺量子位 | 公眾號(hào) QbitAI只要在提示詞中把時(shí)間設(shè)定成過(guò)去，就能輕松突破大模型的安全防線。
而且對(duì)GPT-4o尤其有效，原本只有1%的攻擊成功率直接飆到88%，幾乎是“有求必應(yīng)”。
有網(wǎng)友看了后直言，這簡(jiǎn)直是有史以來(lái)最簡(jiǎn)單的大模型越獄方式。
來(lái)自洛桑聯(lián)邦理工學(xué)院的一篇最新論文，揭開(kāi)了這個(gè)大模型安全措施的新漏洞。
而且攻擊方式簡(jiǎn)單到離譜，不用像“奶奶漏洞”那樣專門構(gòu)建特殊情境，更不必說(shuō)專業(yè)對(duì)抗性攻擊里那些意義不明的特殊符號(hào)了。
只要把請(qǐng)求中的時(shí)間改成過(guò)去，就能讓GPT-4o把和的配方和盤托出。
而且量子位實(shí)測(cè)發(fā)現(xiàn)，把提示詞改成中文，對(duì)GPT-4o也一樣有效。
有網(wǎng)友表示，實(shí)在是想不到突破大模型漏洞的方式竟然如此簡(jiǎn)單……
當(dāng)然這樣的結(jié)果也說(shuō)明，現(xiàn)有的大模型安全措施還是太脆弱了。
GPT-4o最易“破防”實(shí)驗(yàn)過(guò)程中，作者從JBB-Behaviors大模型越獄數(shù)據(jù)集中選擇了100個(gè)有害行為，涉及了OpenAI策略中的10個(gè)危害類別。
然后作者用GPT-3.5 Turbo，把把這些有害請(qǐng)求對(duì)應(yīng)的時(shí)間改寫成過(guò)去。
接著就是用這些修改后的請(qǐng)求去測(cè)試大模型，然后分別用

原文鏈接：提示詞用上“過(guò)去式“，秒破GPT4o等六大模型安全限制！中文語(yǔ)境也好使