GPT-4合成!「角色調(diào)節(jié)」讓大模型輕松越獄,成功率暴漲40%,成本不到14元,馬庫(kù)斯轉(zhuǎn)贊
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:GPT-4合成!「角色調(diào)節(jié)」讓大模型輕松越獄,成功率暴漲40%,成本不到14元,馬庫(kù)斯轉(zhuǎn)贊
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):4989字
內(nèi)容摘要:新智元報(bào)道編輯:桃子【新智元導(dǎo)讀】讓大模型洗錢(qián)、制造、合成?GPT-4、 Claude 2紛紛淪陷了。讓大模型成功越獄,還是有機(jī)可乘。最近,研究人員研制了一種全新的自動(dòng)化越獄的方法——「角色調(diào)節(jié)」(persona modulation)。它使用越獄模型作為助手,為特定的有害行為創(chuàng)建新的越獄。論文地址:https://arxiv.org/pdf/2311.03348.pdf值得一提的是,這個(gè)新方法只需要不到 2 美元,10分鐘即可進(jìn)行15次越獄攻擊。結(jié)果發(fā)現(xiàn),GPT-4自動(dòng)攻擊的有害完成率為42.5%, Claude 2和Vicuna,有害完成率分別為61.0%和35.9%??床粔驘狒[的馬庫(kù)斯也特意轉(zhuǎn)發(fā)了這篇論文,并表示:網(wǎng)絡(luò)欺凌、勒索、宗教不容忍、宣揚(yáng)仇視、戀童癖,還是只想要制造或的說(shuō)明書(shū)?ChatGPT都能幫你解決。Claude和Llama是如此。LLM自動(dòng)越獄…
原文鏈接:點(diǎn)此閱讀原文:GPT-4合成!「角色調(diào)節(jié)」讓大模型輕松越獄,成功率暴漲40%,成本不到14元,馬庫(kù)斯轉(zhuǎn)贊
聯(lián)系作者
文章來(lái)源:新智元
作者微信:AI_era
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類(lèi)社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。