Sergey Levine ：機(jī)器人基礎(chǔ)模型將取代其他通用基礎(chǔ)模型丨DAI 2024

AIGC動(dòng)態(tài)9個(gè)月前發(fā)布 AI科技評(píng)論

33億參數(shù)的VLA模型在大多數(shù)任務(wù)上可達(dá) 50%-100% 成功率。

原標(biāo)題：Sergey Levine ：機(jī)器人基礎(chǔ)模型將取代其他通用基礎(chǔ)模型丨DAI 2024
文章來(lái)源：AI科技評(píng)論
內(nèi)容字?jǐn)?shù)：25392字

具身智能大模型：通用性優(yōu)勢(shì)與未來(lái)發(fā)展

本文總結(jié)了UC Berkeley Sergey Levine教授在第六屆國(guó)際分布式人工智能會(huì)議（DAI 2024）上關(guān)于通用機(jī)器人基礎(chǔ)模型的演講要點(diǎn)，探討了具身智能大模型的通用性優(yōu)勢(shì)及其未來(lái)發(fā)展方向。

1. 通用機(jī)器人基礎(chǔ)模型的性

Levine教授指出，過(guò)去人工智能領(lǐng)域采用的是針對(duì)特定任務(wù)訓(xùn)練專(zhuān)用模型的方法。而如今，通用模型的興起，特別是大型語(yǔ)言模型（LLM）的成功，啟示了在機(jī)器人領(lǐng)域采用類(lèi)似的通用性思路。通過(guò)收集大量不同機(jī)器人執(zhí)行各種任務(wù)的數(shù)據(jù)，訓(xùn)練一個(gè)通用機(jī)器人基礎(chǔ)模型，可以顯著提高模型的泛化能力和效率。這將克服目前機(jī)器人領(lǐng)域數(shù)據(jù)不足的難題，并隨著機(jī)器人實(shí)際部署而不斷提升模型性能。

2. 基于擴(kuò)散的π0通用機(jī)器人模型

Levine教授介紹了其團(tuán)隊(duì)開(kāi)發(fā)的π0模型，這是一個(gè)集成視覺(jué)-語(yǔ)言-動(dòng)作（VLA）的33億參數(shù)通用機(jī)器人基礎(chǔ)模型。該模型通過(guò)預(yù)訓(xùn)練（10,000小時(shí)數(shù)據(jù)，7種機(jī)器人，68種任務(wù)）和任務(wù)微調(diào)兩個(gè)階段進(jìn)行訓(xùn)練，在大多數(shù)任務(wù)上實(shí)現(xiàn)了50%-100%的成功率。π0模型采用了一種更適應(yīng)機(jī)器人控制的架構(gòu)，結(jié)合了擴(kuò)散模型來(lái)輸出高頻連續(xù)動(dòng)作，并能處理不同形態(tài)的機(jī)器人。在復(fù)雜任務(wù)（如疊衣服、組裝盒子）中，高質(zhì)量的后期訓(xùn)練數(shù)據(jù)至關(guān)重要，可以進(jìn)一步提升模型性能。

3. 推理與強(qiáng)化學(xué)習(xí)的結(jié)合

演講中還介紹了通過(guò)多步推理提升VLA模型泛化能力的研究。通過(guò)引入中間推理步驟，模型能夠更好地理解任務(wù)要求，提高成功率。實(shí)驗(yàn)結(jié)果顯示，在具有挑戰(zhàn)性的泛化任務(wù)中，這種方法使OpenVLA的絕對(duì)成功率提高了28%。此外，利用強(qiáng)化學(xué)習(xí)（RL）進(jìn)行微調(diào)，可以獲得更魯棒、更快速的任務(wù)執(zhí)行策略。RLDG方法通過(guò)使用強(qiáng)化學(xué)習(xí)生成的高質(zhì)量訓(xùn)練數(shù)據(jù)來(lái)微調(diào)機(jī)器人通用基礎(chǔ)模型，相比傳統(tǒng)的人類(lèi)示范數(shù)據(jù)訓(xùn)練方法可以獲得更好的性能和泛化能力。

4. 自主學(xué)習(xí)與未來(lái)展望

最后，Levine教授介紹了SOAR項(xiàng)目，該項(xiàng)目旨在通過(guò)自主學(xué)習(xí)，在沒(méi)有人類(lèi)監(jiān)督的情況下提升機(jī)器人基礎(chǔ)模型。通過(guò)視覺(jué)語(yǔ)言模型生成任務(wù)，并利用生成的圖像數(shù)據(jù)進(jìn)行模型微調(diào)，實(shí)現(xiàn)了顯著的性能提升。這表明，未來(lái)機(jī)器人基礎(chǔ)模型可以依靠自主學(xué)習(xí)不斷提升自身能力，無(wú)需持續(xù)的人類(lèi)干預(yù)。

總而言之，Levine教授的演講展示了通用機(jī)器人基礎(chǔ)模型的巨大潛力，以及通過(guò)結(jié)合推理、強(qiáng)化學(xué)習(xí)和自主學(xué)習(xí)等技術(shù)進(jìn)一步提升模型性能的途徑。這為具身智能的發(fā)展指明了方向，預(yù)示著未來(lái)機(jī)器人將擁有更強(qiáng)的泛化能力和更廣泛的應(yīng)用。