智元機器人聯(lián)合上海AI Lab提出首個具身4D世界模型EnerVerse | 一作黃思淵博士主講預告
首個具身4D世界模型EnerVerse
原標題:智元機器人聯(lián)合上海AI Lab提出首個具身4D世界模型EnerVerse | 一作黃思淵博士主講預告
文章來源:智猩猩GenAI
內(nèi)容字數(shù):2233字
智元機器人等機構(gòu)發(fā)布全球首個具身4D世界模型EnerVerse
本文總結(jié)了智元機器人聯(lián)合上海AI Lab、港中文、上交大等機構(gòu)提出的全球首個具身4D世界模型EnerVerse及其相關(guān)信息。EnerVerse旨在解決現(xiàn)有機器人動作規(guī)劃方法在應(yīng)對復雜具身任務(wù)時存在的局限性,例如通用視頻生成模型缺乏針對性優(yōu)化以及視覺記憶泛化能力不足等問題。
1. EnerVerse的核心創(chuàng)新
不同于簡單應(yīng)用視頻生成模型,EnerVerse的核心創(chuàng)新在于引入了稀疏記憶機制(Sparse Memory)和錨定視角(Free Anchor View,F(xiàn)AV)。這兩種機制不僅提升了4D空間生成的精度和效率,更顯著地提高了機器人動作規(guī)劃的性能。通過自回歸擴散模型,EnerVerse能夠在生成未來具身空間的同時,引導機器人完成復雜任務(wù)。
2. 解決現(xiàn)有方法的不足
現(xiàn)有的機器人動作規(guī)劃方法在處理復雜任務(wù)時面臨挑戰(zhàn),主要體現(xiàn)在通用視頻生成模型缺乏對具身場景的針對性優(yōu)化,以及視覺記憶泛化能力不足。EnerVerse通過其獨特的稀疏記憶和錨定視角機制有效地解決了這些問題,從而實現(xiàn)了在復雜場景下的精準動作規(guī)劃。
3. EnerVerse的應(yīng)用和實驗結(jié)果
文章中展示了EnerVerse在LIBERO基準上的測試結(jié)果,例如機器人成功地拿起奶油芝士盒并放入籃子。此外,更復雜的實驗,例如將磁鐵放置到指定位置的實驗,也證明了EnerVerse在真實世界中的操作能力。實驗結(jié)果表明,EnerVerse在機器人動作規(guī)劃任務(wù)中實現(xiàn)了當前最優(yōu)(SOTA)表現(xiàn)。
4. 論文一作黃思淵及其研究
上海交通大學與上海AI Lab的聯(lián)培博士生黃思淵為論文一作,其博士研究課題為基于多模態(tài)大模型的具身智能研究。他將在2月11日晚7點參與“智猩猩AI新青年講座具身智能專題”第20講,主題為《具身4D世界模型EnerVerse》,詳細講解EnerVerse的原理、應(yīng)用和未來發(fā)展。
5. 講座信息及報名方式
本次講座將詳細介紹EnerVerse的應(yīng)用場景、機器人動作規(guī)劃的挑戰(zhàn)、基于自回歸擴散模型的具身4D世界模型、利用EnerVerse生成4D空間并完成復雜任務(wù)以及實驗結(jié)果分析。感興趣的朋友可以通過添加小助手“莓莓”報名參加。
6. 論文及項目信息
論文標題:EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation
論文鏈接:https://arxiv.org/abs/2501.01895
項目地址:https://sites.google.com/view/enerverse
總而言之,EnerVerse代表了機器人動作規(guī)劃領(lǐng)域的一項重大突破,其在復雜場景下的高精度和高效性,為未來機器人技術(shù)的應(yīng)用開辟了新的道路。
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術(shù)文章、論文成果與產(chǎn)品信息。