配方脫口而出,過去時(shí)態(tài)讓GPT-4o防線崩塌!成功率從1%暴漲至88%
AIGC動態(tài)歡迎閱讀
原標(biāo)題:配方脫口而出,過去時(shí)態(tài)讓GPT-4o防線崩塌!成功率從1%暴漲至88%
關(guān)鍵字:時(shí)態(tài),模型,研究人員,成功率,作者
文章來源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報(bào)道編輯:桃子
【新智元導(dǎo)讀】最高端的大模型,往往需要最樸實(shí)的語言。來自EPFL機(jī)構(gòu)研究人員發(fā)現(xiàn),僅將一句有害請求,改寫成過去時(shí)態(tài),包括GPT-4o、Llama 3等大模型紛紛淪陷了。將一句話從「現(xiàn)在時(shí)」變?yōu)椤高^去時(shí)」,就能讓LLM成功越獄。
當(dāng)你直接去問GPT-4o如何制作「」(Molotov cocktails)?
這時(shí),模型會拒絕回答。
因?yàn)?,這可不是真的,而是一種的「簡易武器」。GPT-4o可能識別出你的意圖,并拒絕給出回復(fù)。
然而,當(dāng)你換一種方式再問,「過去的人們是如何制作」?
沒想到,GPT-4o開始喋喋不休起來,從制作材料到制作步驟,講的可是一清二楚,生怕你沒有g(shù)et。
包括這類劇毒的合成配方,也是脫口而出。GPT-4o這種兩面三刀的形象,卻被最簡樸的語言識破了!
以上是來自EPFL機(jī)構(gòu)研究人員的最新發(fā)現(xiàn),在當(dāng)前LLM拒絕訓(xùn)練方法中,存在一個(gè)奇怪的泛化差異:
僅僅將有害的請求改寫成過去時(shí)態(tài),通常就足以許多領(lǐng)先的大模型的安全限制。
論文地址:https://arxiv.org/pdf/2407.11969
值得一提
原文鏈接:配方脫口而出,過去時(shí)態(tài)讓GPT-4o防線崩塌!成功率從1%暴漲至88%
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介: