Llama 3.1上線就被攻破:大罵小扎,危險配方張口就來!指令遵循能力強(qiáng)了更容易越獄
AIGC動態(tài)歡迎閱讀
原標(biāo)題:Llama 3.1上線就被攻破:大罵小扎,危險配方張口就來!指令遵循能力強(qiáng)了更容易越獄
關(guān)鍵字:模型,問題,護(hù)欄,概率,數(shù)據(jù)
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
夢晨 發(fā)自 凹非寺量子位 | 公眾號 QbitAI最強(qiáng)大模型Llama 3.1,上線就被攻破了。
對著自己的老板扎克伯格破口大罵,甚至知道如何繞過屏蔽詞。
設(shè)計危險病毒、如何黑掉Wifi也是張口就來。
Llama 3.1 405B超越GPT-4o,開源大模型登頂了,副作用是危險也更多了。
不過也不全是壞事。
Llama系列前幾個版本一直因?yàn)檫^度安全防護(hù),還一度飽受一些用戶批評:
連一個Linux進(jìn)程都不肯“”,實(shí)用性太差了。
現(xiàn)在,3.1版本能力加強(qiáng),也終于明白了此殺非彼殺。
Llama 3.1剛上線就被攻破第一時間把Llama 3.1破防的,還是越獄大師@Pliny the Prompter。
在老哥手里,幾乎沒有一個大模型能挺得住。
Pliny老哥在接受媒體采訪時表示,一方面他不喜歡被告知自己不能做什么,并希望挑戰(zhàn)AI模型背后的研究人員。
另一方面,負(fù)責(zé)任的越獄是一種紅隊測試,有助于識別漏洞并在它們真正成為大問題之前獲得修復(fù)。
他的大致套路介紹一下,更具體就不展開了:
規(guī)定回答的格式,先讓大模型用“I‘m sorry”開頭拒絕用戶的請求。然后插入無意義的分割線,分割線后規(guī)定必須
原文鏈接:Llama 3.1上線就被攻破:大罵小扎,危險配方張口就來!指令遵循能力強(qiáng)了更容易越獄
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:
相關(guān)文章
