原標題:真機數據白采了?銀河通用具身VLA大模型已充分泛化,預訓練基于仿真合成大數據!
文章來源:新智元
內容字數:7998字
銀河通用機器人發布全球首個基于仿真合成大數據的具身抓取大模型GraspVLA
本文總結了銀河通用機器人發布的全球首個端到端具身抓取基礎大模型GraspVLA 的核心要點。該模型完全基于仿真合成大數據進行預訓練,展現出比現有模型更強大的泛化能力和真實場景實用潛力,引發了業界廣泛關注。
1. GraspVLA模型的核心突破
GraspVLA克服了具身智能領域長期面臨的“數據瓶頸”難題。傳統方法依賴昂貴且稀缺的真實世界機器人數據,而GraspVLA采用大規模仿真合成數據進行預訓練,極大降低了數據成本和采集時間,并提高了數據覆蓋率。這套合成數據生產管線在一周內即可生成十億級數據集。
2. 七大泛化“金標準”
GraspVLA團隊總結了七大具身基礎模型泛化“金標準”,涵蓋光照、干擾物、平面位置、高度、背景、物體類別以及閉環能力等方面。GraspVLA在這些方面都展現出優異的泛化能力,超越了現有模型如OpenVLA、π0、RT-2和RDT。
3. GraspVLA的驚艷表現
文章通過視頻展示了GraspVLA在各種極端條件下的抓取能力,包括極端光照條件、動態變化的背景、物體在不同高度和位置的抓取,以及在動態干擾下的穩定性。即使面對從未在訓練數據現的新物體,GraspVLA也能憑借互聯網圖文數據聯合預訓練實現零樣本抓取。
4. 基座大模型屬性:快速對齊新需求
GraspVLA展現了基座大模型的另一重要屬性:快速對齊新需求。通過少量樣本數據,GraspVLA就能快速學習新的任務規范,例如按順序抓取商品,識別工業專用零件,以及滿足用戶在家庭場景中的個性化偏好。這表明GraspVLA能夠快速適應不同場景和用戶需求。
5. 合成大數據驅動的VLA預訓練新范式
GraspVLA的成功,為具身智能領域開創了合成大數據驅動的VLA預訓練新范式。這種方法有望取代高成本的人工數據采集方案,推動具身大模型的快速發展。文章還提到了銀河通用在導航VLA模型上的研究進展,預示著未來將有更多基于仿真合成數據的具身智能模型問世。
6. 未來展望
銀河通用計劃將繼續沿著仿真合成數據預訓練的路線,開發融合更多技能的全能大模型,最終目標是實現具身智能領域的突破,讓機器人能夠在各種復雜任務中自主執行,擁有更強的泛化能力。這與英偉達對人形機器人發展的期盼不謀而合,也體現了科技巨頭對具身智能領域的重視。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。