UniAct – 清華、商湯、北大、上海AI Lab共同推出的具身基礎(chǔ)模型框架
UniAct是一種創(chuàng)新的具身基礎(chǔ)模型框架,旨在解決不同機(jī)器人之間行為異構(gòu)性的問(wèn)題。通過(guò)學(xué)習(xí)普適行為,UniAct捕捉到不同機(jī)器人共享的基本行為特征,從而消除因物理結(jié)構(gòu)和控制接口差異所導(dǎo)致的行為不一致性。
UniAct是什么
UniAct是一種新穎的具身基礎(chǔ)模型框架,旨在解決不同機(jī)器人之間的行為異構(gòu)性。通過(guò)提取通用行為,UniAct能夠捕捉不同機(jī)器人共享的原子行為特征,從而消除因物理形態(tài)和控制接口差異造成的行為不一致。UniAct的架構(gòu)由通用行為提取器、通用行為空間和異構(gòu)解碼器組成。通用行為提取器基于視覺(jué)語(yǔ)言模型,通過(guò)觀察和任務(wù)目標(biāo)提取通用行為;通用行為空間采用向量量化碼本形式,每個(gè)向量代表一種原子行為;異構(gòu)解碼器將通用行為轉(zhuǎn)換為特定機(jī)器人的控制信號(hào)。
UniAct的主要功能
- 通用動(dòng)作編碼:UniAct將不同機(jī)器人的原子行為(例如“移動(dòng)到目標(biāo)位置”或“避開(kāi)障礙物”)通過(guò)向量量化形成一個(gè)通用的代碼庫(kù),每個(gè)token代表一種可跨平臺(tái)共享的通用技能。
- 輕量化架構(gòu)與高效性能:UniAct-0.5B模型僅需0.5億參數(shù),在實(shí)際與模擬環(huán)境的任務(wù)測(cè)試中,其表現(xiàn)已超越參數(shù)達(dá)到14億的OpenVLA模型。
- 快速適應(yīng)新環(huán)境和機(jī)器人:UniAct只需50條專(zhuān)用示教數(shù)據(jù)即可完成模型在新環(huán)境中的微調(diào),能夠迅速適應(yīng)新機(jī)器人和控制接口。通過(guò)添加新的輕量級(jí)解碼器,UniAct可輕松擴(kuò)展至新的機(jī)器人平臺(tái)。
- 跨領(lǐng)域數(shù)據(jù)利用:UniAct通過(guò)通用行為空間,能夠更好地利用跨領(lǐng)域數(shù)據(jù)進(jìn)行訓(xùn)練,在不同機(jī)器人和環(huán)境中實(shí)現(xiàn)更高效的泛化。
- 一致的行為模式:在不同的部署場(chǎng)景和機(jī)器人類(lèi)型中,同一通用動(dòng)作能夠表現(xiàn)出一致的行為模式。這為具身智能體的控制提供了一種便捷的新方法,操作人員只需從代碼庫(kù)中選擇相應(yīng)的通用動(dòng)作,即可指揮不同類(lèi)型的機(jī)器人完成任務(wù)。
UniAct的技術(shù)原理
- 通用動(dòng)作空間(Universal Action Space):UniAct通過(guò)向量量化構(gòu)建了一個(gè)離散的通用動(dòng)作空間。該空間被設(shè)計(jì)為一個(gè)向量化的代碼庫(kù),其中每個(gè)向量嵌入代表一種通用的原子行為。這些行為是不同機(jī)器人在不同情境下共享的基本行為模式,例如“移動(dòng)到目標(biāo)位置”或“避開(kāi)障礙物”。通過(guò)這種方式,UniAct能夠統(tǒng)一表示不同機(jī)器人的動(dòng)作,消除動(dòng)作空間的異構(gòu)性。
- 通用動(dòng)作提取器(Universal Action Extractor):UniAct基于視覺(jué)語(yǔ)言模型的通用動(dòng)作提取器來(lái)識(shí)別和提取通用動(dòng)作。提取器在給定觀察結(jié)果和任務(wù)目標(biāo)的情況下,輸出選擇通用動(dòng)作的概率。通過(guò)這種方式,UniAct從復(fù)雜的視覺(jué)和語(yǔ)言輸入中提取與任務(wù)進(jìn)展直接相關(guān)的通用動(dòng)作,確保動(dòng)作空間的純凈性和一致性。
- 異質(zhì)解碼器(Heterogeneous Decoders):為了將通用動(dòng)作翻譯為特定機(jī)器人的可執(zhí)行命令,UniAct引入了異質(zhì)解碼器。這些解碼器專(zhuān)為不同的機(jī)器人平臺(tái)設(shè)計(jì),能夠根據(jù)機(jī)器人的具體特征將通用動(dòng)作轉(zhuǎn)換為具體的控制信號(hào),從而實(shí)現(xiàn)高效的跨平臺(tái)控制。
- 輕量化架構(gòu)與高效訓(xùn)練:UniAct采用輕量化的模型架構(gòu),即使在低參數(shù)設(shè)置下也能保持良好的性能。其訓(xùn)練過(guò)程通過(guò)行為克隆損失進(jìn)行,結(jié)合適當(dāng)?shù)膿p失函數(shù)(如離散動(dòng)作的交叉熵和連續(xù)動(dòng)作的均方誤差),使UniAct能夠快速適應(yīng)新環(huán)境和新機(jī)器人。
UniAct的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):https://2toinf.github.io/UniAct/
- Github倉(cāng)庫(kù):https://github.com/2toinf/UniAct
- arXiv技術(shù)論文:https://arxiv.org/pdf/2501.10105
UniAct的應(yīng)用場(chǎng)景
- 自動(dòng)駕駛與智能交通:UniAct的技術(shù)原理和架構(gòu)在自動(dòng)駕駛領(lǐng)域同樣適用。通過(guò)學(xué)習(xí)通用的駕駛行為模式,UniAct能夠?yàn)樽詣?dòng)駕駛系統(tǒng)提供更高效的動(dòng)作規(guī)劃和控制。
- 醫(yī)療機(jī)器人:在醫(yī)療機(jī)器人領(lǐng)域,UniAct可應(yīng)用于輔助康復(fù)或手術(shù)機(jī)器人。通過(guò)通用動(dòng)作空間,醫(yī)療機(jī)器人能夠更靈活地適應(yīng)不同患者的需求和手術(shù)場(chǎng)景。
- 工業(yè)自動(dòng)化:在工業(yè)自動(dòng)化領(lǐng)域,UniAct可以用于控制多種工業(yè)機(jī)器人,優(yōu)化生產(chǎn)流程。通過(guò)快速適應(yīng)不同機(jī)器人平臺(tái)和任務(wù)需求,UniAct顯著提升了工業(yè)生產(chǎn)的靈活性和效率。
- 智能家居與服務(wù)機(jī)器人:UniAct同樣適用于智能家居和家庭服務(wù)機(jī)器人領(lǐng)域。通過(guò)通用動(dòng)作空間,服務(wù)機(jī)器人能夠更自然地與人類(lèi)交互,完成各種家務(wù)任務(wù)。
# AI工具# AI項(xiàng)目和框架# 區(qū)塊鏈應(yīng)用開(kāi)發(fā)# 去中心化交易平臺(tái)# 數(shù)字資產(chǎn)管理# 數(shù)據(jù)隱私保護(hù)# 智能合約生成
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無(wú)評(píng)論...