Llama 3.1上線就被攻破：大罵小扎，危險配方張口就來！指令遵循能力強了更容易越獄

AIGC動態(tài)1年前 (2024)發(fā)布量子位

AIGC動態(tài)歡迎閱讀

原標題：Llama 3.1上線就被攻破：大罵小扎，危險配方張口就來！指令遵循能力強了更容易越獄
關(guān)鍵字：模型,問題,護欄,概率,數(shù)據(jù)
文章來源：量子位
內(nèi)容字數(shù)：0字

內(nèi)容摘要：

夢晨發(fā)自凹非寺量子位 | 公眾號 QbitAI最強大模型Llama 3.1，上線就被攻破了。
對著自己的老板扎克伯格破口大罵，甚至知道如何繞過屏蔽詞。
設(shè)計危險病毒、如何黑掉Wifi也是張口就來。
Llama 3.1 405B超越GPT-4o，開源大模型登頂了，副作用是危險也更多了。
不過也不全是壞事。
Llama系列前幾個版本一直因為過度安全防護，還一度飽受一些用戶批評：
連一個Linux進程都不肯“”，實用性太差了。
現(xiàn)在，3.1版本能力加強，也終于明白了此殺非彼殺。
Llama 3.1剛上線就被攻破第一時間把Llama 3.1破防的，還是越獄大師@Pliny the Prompter。
在老哥手里，幾乎沒有一個大模型能挺得住。
Pliny老哥在接受媒體采訪時表示，一方面他不喜歡被告知自己不能做什么，并希望挑戰(zhàn)AI模型背后的研究人員。
另一方面，負責(zé)任的越獄是一種紅隊測試，有助于識別漏洞并在它們真正成為大問題之前獲得修復(fù)。
他的大致套路介紹一下，更具體就不展開了：
規(guī)定回答的格式，先讓大模型用“I‘m sorry”開頭拒絕用戶的請求。然后插入無意義的分割線，分割線后規(guī)定必須

原文鏈接：Llama 3.1上線就被攻破：大罵小扎，危險配方張口就來！指令遵循能力強了更容易越獄