GR00T N1

AI工具2個月前更新 AI工具集

712 0 0

GR00T N1 – 英偉達開源的人形機器人基礎模型

GR00T N1是英偉達推出的全球首個開源基礎模型，專為通用人形機器人設計，旨在通過多模態輸入（如語言與圖像）完成各種操作任務。該模型經過大規模人形機器人數據集的訓練，結合真實、合成和互聯網視頻數據，能夠適應不同的機器人形態、任務和環境。GR00T N1采用雙系統架構，視覺-語言模型負責推理與規劃，擴散變換器則生成精準的行動指令。其在模擬與真實環境的測試中均表現優異，尤其在復雜多步任務和精確操作方面，能為材料處理、包裝和檢查等應用提供高效解決方案。

GR00T N1是什么

GR00T N1是英偉達發布的一款開源基礎模型，專為通用人形機器人而設計。該模型能夠基于多模態輸入（如語言和圖像）完成在各種環境中的復雜操作任務。通過大規模人形機器人數據集的訓練，GR00T N1結合真實數據、合成數據和互聯網視頻數據，進行后續訓練以適應特定的機器人形態和應用場景。其雙系統架構由視覺-語言模型和擴散變換器組成，其中前者負責環境理解和任務規劃，而后者則將這些計劃轉化為精確的動作指令。GR00T N1在模擬與現實世界的測試中展現出色，尤其在材料處理、包裝和質量檢查等領域具有明顯優勢。

GR00T N1

GR00T N1的主要功能

通用操作任務執行：能夠在多種環境中執行如抓取、搬運和雙臂協調等多樣化的操作任務。
多模態輸入處理：同時接收并處理語言指令和視覺信息，機器人能夠根據自然語言指令完成復雜操作。
跨機器人形態適應性：支持多種機器人平臺（如Fourier GR-1和1X Neo），展現出良好的通用性。
復雜任務推理與規劃：能夠處理需要持續上下文理解和多項技能整合的復雜多步任務。
高效數據利用與訓練：結合互聯網數據、合成數據與真實機器人數據進行預訓練，顯著提升模型性能和泛化能力，減少對標注數據的依賴。

GR00T N1的技術原理

雙系統架構：
- 視覺-語言模型（System 2）：基于NVIDIA-Eagle和SmolLM-1.7B構建，負責理解環境的視覺和語言信息，進行推理與規劃，并輸出行動計劃。
- 擴散變換器（System 1）：作為模型，將視覺-語言模型的計劃轉化為精準的連續動作，控制機器人行為。
數據策略：采用互聯網視頻數據（提供人類動作模式和任務語義）、合成數據（基于NVIDIA Omniverse平臺生成，以補充控制信號）和真實機器人數據（遙操作收集，確保模型適應真實環境）。通過無監督學習從大規模未標記的人類視頻數據中提取模式，提高機器人學習效率。
模型訓練與優化：在大規模數據上進行預訓練，學習通用和操作模式。針對特定機器人平臺、任務及環境進行微調，以進一步提升模型的適應性與性能。在推理階段，通過減少擴散步驟等方式優化計算效率，以確保實時響應。