EMMA-X是一款由新加坡科技設計大學開發的具身多模態動作模型,擁有70億參數,旨在提升機器人在復雜環境中的任務執行能力。該模型基于有根據的鏈式思維(CoT)推理數據,對OpenVLA進行了微調,結合了層次化的具身數據集,包含3D空間、2D夾爪位置以及有根據的推理。EMMA-X特別推出了一種創新的軌跡分割策略,通過分析夾爪的開合狀態和機器人手臂的軌跡,極大地增強了任務推理和前瞻性空間推理的能力,在實際機器人任務中表現出色,尤其是在需要空間推理的場景。
EMMA-X是什么
EMMA-X是新加坡科技設計大學推出的一款具身多模態動作模型,具備70億參數,旨在通過有根據的鏈式思維(CoT)推理數據對OpenVLA進行微調。它融合了層次化的具身數據集,包括3D空間、2D夾爪位置和依據的推理,并引入了一種創新的軌跡分割策略,利用夾爪的開合狀態和機械臂的軌跡來增強任務推理與前瞻性空間推理。這種模型在真實世界的機器人任務中,尤其是那些需要空間推理的任務上,展現了顯著的性能優勢。

EMMA-X的主要功能
- 提升空間推理能力:通過預測夾爪的未來2D位置和3D計劃,優化機器人在長期任務中的規劃能力。
- 具體化任務規劃:模型結合視覺與任務推理,生成適應環境的行動策略,提升機器人完成復雜任務的能力。
- 軌跡分割:通過夾爪狀態和機械臂軌跡,將操作序列分割成語義相似的動作段,增強任務理解和規劃。
- 減少誤差與幻覺問題:結合視覺圖像和任務推理,降低任務推理過程中的誤差和幻覺現象。
- 層次化規劃數據生成:為每個操作段生成2D夾爪位置和3D空間信息,支持機器人的決策過程。
EMMA-X的技術原理
- 層次化具身數據集:基于BridgeV2數據集構建,包含60,000條機器人操作軌跡,并附有詳細的空間推理和任務推理信息。
- 前瞻性空間推理:模型能夠預測夾爪的未來位置和計劃,指導機器人即時動作與長期目標的對齊。
- 軌跡分割策略:利用HDBSCAN算法和自定義的距離度量方法,結合末端執行器的軌跡和夾爪狀態,動態分割操作序列。
- Gemini生成任務推理:通過Gemini模型為每個分段生成子任務和具體化推理,提高任務理解的準確性。
- EMMA-X架構:基于OpenVLA的調整,鏈式思維訓練增強空間推理和場景理解能力,預測下一步機器人的行動策略。
EMMA-X的項目地址
- GitHub倉庫:https://github.com/declare-lab/Emma-X
- HuggingFace模型庫:https://huggingface.co/declare-lab/Emma-X
- arXiv技術論文:https://arxiv.org/pdf/2412.11974
EMMA-X的應用場景
- 制造業自動化:在組裝、包裝和質量控制等任務中,提升生產線的效率與靈活性。
- 物流與倉儲:幫助機器人在倉庫中進行貨物揀選、搬運和分類,優化存儲空間和物流流程。
- 服務行業:在餐飲或酒店服務中,機器人能夠完成復雜任務,如烹飪輔助、房間清潔和物品遞送。
- 醫療輔助:在醫療領域中,機器人執行精細操作,例如手術輔助或實驗室樣本處理。
- 家庭自動化:家庭服務機器人可進行清潔、物品整理及其他日常家務,提高生活便利性。
常見問題
- EMMA-X適合哪些行業使用? EMMA-X適用于制造業、物流、服務業、醫療及家庭自動化等多個領域。
- 如何獲取EMMA-X的相關資料? 用戶可以通過其GitHub倉庫和HuggingFace模型庫獲取EMMA-X的詳細資料和代碼。
- EMMA-X的主要優勢是什么? EMMA-X通過結合多模態數據和創新的推理策略,顯著提升機器人的任務執行能力和空間推理能力。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...