基于任意視角的未來空間生成引導機器人動作規劃
智元機器人EnerVerse架構:賦能機器人動作規劃的未來空間生成
本文介紹了智元機器人團隊提出的EnerVerse架構,該架構利用自回歸擴散模型,在生成未來具身空間的同時引導機器人完成復雜任務,從而解決了機器人動作規劃中模態對齊和數據稀缺的兩大難題,并在機器人動作規劃任務中實現了當前最優(SOTA)表現。
1. 挑戰與解決方案
機器人動作規劃的核心在于根據實時觀測和任務指令預測并完成未來操作。然而,現有方法面臨通用模型局限性和視覺記憶泛化能力不足等問題。EnerVerse通過逐塊生成的自回歸擴散框架,結合創新的稀疏記憶機制和錨定視角(FAV)方法,有效解決了這些挑戰。
2. EnerVerse架構的技術方案
EnerVerse采用以下關鍵技術:
- 逐塊擴散生成 (Next Chunk Diffusion):基于結合時空注意力的UNet結構,逐步生成未來具身空間,并通過單向因果邏輯確保生成序列的邏輯合理性。
- 稀疏記憶機制:借鑒LLM的上下文記憶,通過高比例隨機掩碼和較大時間間隔更新記憶隊列,降低計算開銷,提升長程任務生成能力。
- 錨定視角 (Free Anchor View,FAV):支持動態調整錨定視角,克服固定多視角在狹窄場景中的局限性,并通過光線投射原理和跨視角3D空間注意力確保生成視頻的幾何一致性。
- 高效動作規劃 (Diffusion Policy Head):在生成網絡下游集成Diffusion策略頭,實現未來空間生成與機器人動作規劃的全鏈條打通,并支持稀疏記憶,提升長程任務規劃能力。
3. 實驗結果與分析
實驗結果表明,EnerVerse在視頻生成和動作規劃方面均取得了顯著成果:
- 視頻生成性能:在短程和長程任務中均優于現有模型,展現出更強的邏輯一致性和連續生成能力。
- 動作規劃能力:在LIBERO基準測試中,EnerVerse在單視角和多視角設定下均超越了現有方法,尤其在長程任務中表現突出。
- 消融實驗:證明了稀疏記憶機制和二階段訓練策略對性能提升的關鍵作用。
- 注意力可視化:直觀展現了EnerVerse生成的未來空間與預測的動作空間的強時序一致性。
4. 結論
智元機器人通過EnerVerse架構,開創了未來具身智能的新方向。該架構突破了機器人任務規劃的技術瓶頸,為多模態、長程任務的研究提供了全新范式。項目主頁、論文和數據集即將開源。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...