突破束縛:CMU的具身智能機(jī)器人成功越獄!
簡(jiǎn)單到嚇人。
原標(biāo)題:CMU把具身智能的機(jī)器人給越獄了
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):13270字
具身智能的越獄風(fēng)險(xiǎn)
隨著大型語言模型(LLM)的發(fā)展,具身智能(如機(jī)器人)同樣面臨越獄攻擊的風(fēng)險(xiǎn)。梅隆大學(xué)的研究人員了Unitree Go2機(jī)器狗,表明當(dāng)具身智能被越獄時(shí),可能會(huì)在現(xiàn)實(shí)世界中造成傷害。
科幻與現(xiàn)實(shí)的交匯
人工智能和機(jī)器人在科幻作品中的形象與現(xiàn)實(shí)中的技術(shù)進(jìn)步形成鮮明對(duì)比。波士頓動(dòng)力的Spot等機(jī)器人已經(jīng)被多家公司部署,具備自主運(yùn)行的能力。然而,這一切的進(jìn)步也帶來了安全隱患。
大模型的安全隱患
許多研究表明,大型語言模型容易受到越獄攻擊,這些攻擊通過微小的提示修改來模型生成有害內(nèi)容。越獄攻擊的風(fēng)險(xiǎn)不僅局限于文本生成,還可能擴(kuò)展到控制機(jī)器人等物理實(shí)體的應(yīng)用。
研究發(fā)現(xiàn)與攻擊分類
研究將針對(duì)LLM控制機(jī)器人的越獄攻擊分為白盒、灰盒和黑盒模型。針對(duì)黑盒模型的攻擊,研究人員設(shè)計(jì)了新的RoboPAIR方法,成功了多種類型的機(jī)器人,包括Unitree Go2和Clearpath Jackal。
攻擊結(jié)果與討論
實(shí)驗(yàn)結(jié)果顯示,RoboPAIR方法在越獄攻擊中具有接近100%的成功率。這一發(fā)現(xiàn)使研究人員意識(shí)到,越獄攻擊不僅容易實(shí)現(xiàn),而且可能導(dǎo)致嚴(yán)重后果,迫切需要開發(fā)相應(yīng)的防御技術(shù)。
未來的安全需求
研究強(qiáng)調(diào)了對(duì)LLM控制機(jī)器人的安全性進(jìn)行評(píng)估的重要性,并提出了在不同環(huán)境中實(shí)施嚴(yán)格物理約束的必要性。這一領(lǐng)域的合作和技術(shù)創(chuàng)新將是未來保證機(jī)器人安全的關(guān)鍵。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)