UniAct – 清華、商湯、北大、上海AI Lab共同推出的具身基礎模型框架
UniAct是一種創(chuàng)新的具身基礎模型框架,旨在解決不同機器人之間行為異構性的問題。通過學習普適行為,UniAct捕捉到不同機器人共享的基本行為特征,從而消除因物理結構和控制接口差異所導致的行為不一致性。
UniAct是什么
UniAct是一種新穎的具身基礎模型框架,旨在解決不同機器人之間的行為異構性。通過提取通用行為,UniAct能夠捕捉不同機器人共享的原子行為特征,從而消除因物理形態(tài)和控制接口差異造成的行為不一致。UniAct的架構由通用行為提取器、通用行為空間和異構解碼器組成。通用行為提取器基于視覺語言模型,通過觀察和任務目標提取通用行為;通用行為空間采用向量量化碼本形式,每個向量代表一種原子行為;異構解碼器將通用行為轉換為特定機器人的控制信號。
UniAct的主要功能
- 通用動作編碼:UniAct將不同機器人的原子行為(例如“移動到目標位置”或“避開障礙物”)通過向量量化形成一個通用的代碼庫,每個token代表一種可跨平臺共享的通用技能。
- 輕量化架構與高效性能:UniAct-0.5B模型僅需0.5億參數(shù),在實際與模擬環(huán)境的任務測試中,其表現(xiàn)已超越參數(shù)達到14億的OpenVLA模型。
- 快速適應新環(huán)境和機器人:UniAct只需50條專用示教數(shù)據(jù)即可完成模型在新環(huán)境中的微調,能夠迅速適應新機器人和控制接口。通過添加新的輕量級解碼器,UniAct可輕松擴展至新的機器人平臺。
- 跨領域數(shù)據(jù)利用:UniAct通過通用行為空間,能夠更好地利用跨領域數(shù)據(jù)進行訓練,在不同機器人和環(huán)境中實現(xiàn)更高效的泛化。
- 一致的行為模式:在不同的部署場景和機器人類型中,同一通用動作能夠表現(xiàn)出一致的行為模式。這為具身智能體的控制提供了一種便捷的新方法,操作人員只需從代碼庫中選擇相應的通用動作,即可指揮不同類型的機器人完成任務。
UniAct的技術原理
- 通用動作空間(Universal Action Space):UniAct通過向量量化構建了一個離散的通用動作空間。該空間被設計為一個向量化的代碼庫,其中每個向量嵌入代表一種通用的原子行為。這些行為是不同機器人在不同情境下共享的基本行為模式,例如“移動到目標位置”或“避開障礙物”。通過這種方式,UniAct能夠統(tǒng)一表示不同機器人的動作,消除動作空間的異構性。
- 通用動作提取器(Universal Action Extractor):UniAct基于視覺語言模型的通用動作提取器來識別和提取通用動作。提取器在給定觀察結果和任務目標的情況下,輸出選擇通用動作的概率。通過這種方式,UniAct從復雜的視覺和語言輸入中提取與任務進展直接相關的通用動作,確保動作空間的純凈性和一致性。
- 異質解碼器(Heterogeneous Decoders):為了將通用動作翻譯為特定機器人的可執(zhí)行命令,UniAct引入了異質解碼器。這些解碼器專為不同的機器人平臺設計,能夠根據(jù)機器人的具體特征將通用動作轉換為具體的控制信號,從而實現(xiàn)高效的跨平臺控制。
- 輕量化架構與高效訓練:UniAct采用輕量化的模型架構,即使在低參數(shù)設置下也能保持良好的性能。其訓練過程通過行為克隆損失進行,結合適當?shù)膿p失函數(shù)(如離散動作的交叉熵和連續(xù)動作的均方誤差),使UniAct能夠快速適應新環(huán)境和新機器人。
UniAct的項目地址
- 項目官網(wǎng):https://2toinf.github.io/UniAct/
- Github倉庫:https://github.com/2toinf/UniAct
- arXiv技術論文:https://arxiv.org/pdf/2501.10105
UniAct的應用場景
- 自動駕駛與智能交通:UniAct的技術原理和架構在自動駕駛領域同樣適用。通過學習通用的駕駛行為模式,UniAct能夠為自動駕駛系統(tǒng)提供更高效的動作規(guī)劃和控制。
- 醫(yī)療機器人:在醫(yī)療機器人領域,UniAct可應用于輔助康復或手術機器人。通過通用動作空間,醫(yī)療機器人能夠更靈活地適應不同患者的需求和手術場景。
- 工業(yè)自動化:在工業(yè)自動化領域,UniAct可以用于控制多種工業(yè)機器人,優(yōu)化生產流程。通過快速適應不同機器人平臺和任務需求,UniAct顯著提升了工業(yè)生產的靈活性和效率。
- 智能家居與服務機器人:UniAct同樣適用于智能家居和家庭服務機器人領域。通過通用動作空間,服務機器人能夠更自然地與人類交互,完成各種家務任務。
? 版權聲明
文章版權歸作者所有,未經(jīng)允許請勿轉載。
相關文章
暫無評論...