GO-1

GO-1 – 智元機器人推出的首個通用具身基座模型

GO-1（智元啟元大模型）是智元機器人推出的首款通用具身基座模型。該模型基于Vision-Language-Latent-Action（ViLLA）架構，結合了多模態大模型（VLM）與混合專家系統（MoE）的優勢。

GO-1是什么

GO-1（Genie Operator-1，智元啟元大模型）是智元機器人開發的首個通用具身基座模型，旨在增強機器人在各種環境中的適應能力。該模型利用Vision-Language-Latent-Action（ViLLA）架構，結合了多模態大模型（VLM）和混合專家（MoE）。VLM通過分析海量的互聯網圖文數據，使模型具備出色的場景感知和語言理解能力；而MoE中的隱式規劃器（Latent Planner）通過學習跨本體和人類操作視頻的數據，實現了對動作的全面理解；動作專家（Action Expert）則依托于百萬級真實操作數據，確保模型具備精準的動作執行能力。

GO-1

GO-1的主要功能

人類視頻學習：模型通過研究大量人類操作視頻，能夠快速掌握真實世界中的動作知識，從而適應新的任務。
小樣本快速泛化：即使在數據稀缺或零樣本的情況下，GO-1也能迅速適應新場景和任務，降低了具身智能的應用門檻。
一腦多形，跨本體應用：GO-1能夠靈活部署于多種類型的機器人平臺，展現出卓越的通用性和靈活性。
持續進化：在實際應用中，GO-1能夠不斷學習和優化其性能，通過數據反饋系統從實際操作中遇到的問題中持續進化，變得越來越智能。
高效動作執行：基于百萬級真實操作數據訓練的動作專家，GO-1具備精確且高效的動作執行能力。

GO-1的計算原理

VLM（多模態大模型）：VLM通過深入挖掘互聯網的圖文數據，賦予模型卓越的場景理解和語言處理能力，能夠準確識別圖像信息并與文本數據高效融合，從而全面理解復雜場景。
MoE（混合專家系統）：MoE系統增強了模型的動作理解與執行能力。其中：
- Latent Planner（隱式規劃器）：通過分析大量跨本體和人類操作視頻數據，掌握通用的動作規劃邏輯。
- Action Expert（動作專家）：依托百萬級真實操作數據進行訓練，具備精細且高效的動作執行能力。