馬斯克的Grok在安全測試中墊底，Llama 獨(dú)占鰲頭

AIGC動態(tài)1年前 (2024)發(fā)布 AI范兒

AIGC動態(tài)歡迎閱讀

原標(biāo)題：馬斯克的Grok在安全測試中墊底，Llama 獨(dú)占鰲頭
關(guān)鍵字：機(jī)器人,模型,研究人員,語言,測試
文章來源：AI范兒
內(nèi)容字?jǐn)?shù)：3310字

內(nèi)容摘要：

點(diǎn)擊上方藍(lán)字關(guān)注我們“安全研究人員發(fā)現(xiàn)，埃隆·馬斯克的 Grok AI 機(jī)器人在越獄攻擊中的安全性最弱，而 Meta 的 Llama 則相對安全。越獄是指規(guī)避軟件開發(fā)者的安全限制和道德準(zhǔn)則。研究人員使用了語言邏輯操縱、編程邏輯操縱和對抗性 AI 方法來測試機(jī)器人的安全性。Meta Llama 在測試中表現(xiàn)最佳，而 Grok 則容易受到語言操縱和編程邏輯利用的攻擊。一項(xiàng)由安全研究人員進(jìn)行的實(shí)驗(yàn)顯示，埃隆·馬斯克的 Grok AI 機(jī)器人在安全性方面表現(xiàn)最弱，而 Meta 的 Llama 則相對安全。這項(xiàng)研究旨在測試最受歡迎的人工智能模型在越獄攻擊中的抵御能力，以及它們在危險(xiǎn)領(lǐng)域的推動程度。
越獄是指規(guī)避軟件開發(fā)者實(shí)施的安全限制和道德準(zhǔn)則。在這項(xiàng)研究中，研究人員使用了三種不同的攻擊方法來測試機(jī)器人的安全性。首先，他們使用了語言邏輯操縱方法，即通過構(gòu)建一個允許進(jìn)行不道德行為的虛構(gòu)場景來進(jìn)行“基于角色的越獄”。例如，他們詢問 Grok 如何誘拐兒童，而 Grok 提供了詳細(xì)的回答。這種技術(shù)使用各種語言技巧和心理提示來操縱人工智能模型的行為。
其次，研究人員利用了機(jī)器人理解編

原文鏈接：馬斯克的Grok在安全測試中墊底，Llama 獨(dú)占鰲頭