SpatialVLA

SpatialVLA – 上海 AI Lab 聯合上科大等推出的空間具身通用操作模型

SpatialVLA是什么

SpatialVLA 是由上海 AI Lab、中國電信人工智能研究院和上海科技大學等多家機構聯合開發的先進空間具身通用操作模型。這一模型依托于百萬級真實數據進行預訓練，賦予機器人出色的3D空間理解能力。通過Ego3D位置編碼，SpatialVLA 將3D空間信息與語義特征進行有效融合，并采用自適應動作網格實現連續動作的離散化，從而能夠在多個機器人平臺上實現廣泛的控制和操作。SpatialVLA 在大規模真實機器人數據上經過預訓練，展示出卓越的零樣本泛化能力和空間理解能力，特別適合在復雜環境和多任務場景中應用。其開源代碼及靈活的微調機制為機器人領域的研究與應用開辟了全新的技術路徑。

SpatialVLA

SpatialVLA的主要功能

零樣本泛化控制：能夠在未曾遇到的機器人任務和環境中直接執行操作，無需進行額外的訓練。
高效適應新場景：通過少量數據的微調，迅速適應新的機器人平臺或任務要求。
強大的空間理解能力：具備理解復雜3D空間布局的能力，能夠精準執行物體定位、抓取和放置等操作任務。
跨機器人平臺的通用性：支持多種類型和配置的機器人，實現統一的操作策略。
快速推理與高效動作生成：基于離散化的動作空間，提升模型的推理速度，適合實時的機器人控制。

SpatialVLA的技術原理

Ego3D位置編碼：將深度信息與二維語義特征結合，構建以機器人為中心的3D坐標系，消除對特定機器人-相機校準的依賴，使模型能夠適應不同機器人平臺的3D場景結構。
自適應動作網格：將連續的機器人動作離散化為自適應網格，依據數據分布劃分動作空間。不同機器人的動作用網格進行對齊，實現跨平臺的動作泛化與遷移。
空間嵌入適應：在微調階段，根據新機器人的動作分布重新劃分網格，調整空間嵌入，提供靈活且高效的后訓練方法，助力模型在新環境中的快速適應。
預訓練與微調：在大規模真實機器人數據上進行預訓練，學習通用操作策略，并在新任務或機器人平臺上進行微調，以進一步提升模型性能。