具身智能新高度！智元機器人推出全球首個4D世界模型EnerVerse

基于任意視角的未來空間生成引導機器人動作規劃

原標題：具身智能新高度！智元機器人推出全球首個4D世界模型 EnerVerse
文章來源：機器之心
內容字數：5074字

本文介紹了智元機器人團隊提出的EnerVerse架構，該架構利用自回歸擴散模型，在生成未來具身空間的同時引導機器人完成復雜任務，從而解決了機器人動作規劃中模態對齊和數據稀缺的兩大難題，并在機器人動作規劃任務中實現了當前最優（SOTA）表現。

機器人動作規劃的核心在于根據實時觀測和任務指令預測并完成未來操作。然而，現有方法面臨通用模型局限性和視覺記憶泛化能力不足等問題。EnerVerse通過逐塊生成的自回歸擴散框架，結合創新的稀疏記憶機制和錨定視角(FAV)方法，有效解決了這些挑戰。

EnerVerse采用以下關鍵技術：

逐塊擴散生成 (Next Chunk Diffusion)：基于結合時空注意力的UNet結構，逐步生成未來具身空間，并通過單向因果邏輯確保生成序列的邏輯合理性。
稀疏記憶機制：借鑒LLM的上下文記憶，通過高比例隨機掩碼和較大時間間隔更新記憶隊列，降低計算開銷，提升長程任務生成能力。
錨定視角 (Free Anchor View,FAV)：支持動態調整錨定視角，克服固定多視角在狹窄場景中的局限性，并通過光線投射原理和跨視角3D空間注意力確保生成視頻的幾何一致性。
高效動作規劃 (Diffusion Policy Head)：在生成網絡下游集成Diffusion策略頭，實現未來空間生成與機器人動作規劃的全鏈條打通，并支持稀疏記憶，提升長程任務規劃能力。

實驗結果表明，EnerVerse在視頻生成和動作規劃方面均取得了顯著成果：

智元機器人通過EnerVerse架構，開創了未來具身智能的新方向。該架構突破了機器人任務規劃的技術瓶頸，為多模態、長程任務的研究提供了全新范式。項目主頁、論文和數據集即將開源。

文章來源：機器之心
作者微信：
作者簡介：專業的人工智能媒體和產業服務平臺

文章版權歸作者所有，未經允許請勿轉載。

暫無評論...