空天具身世界模型是通往空天具身智能的必經之路~
原標題:首次提出空天具身智能概念!中科院公開無人機智能體基準套件,加速空天具身世界模型構建
文章來源:智猩猩GenAI
內容字數:10906字
空天具身智能研究:AeroVerse基準套件的構建與評估
本文介紹了中國科學院空天信息研究院和中國科學院大學的研究團隊在空天具身智能領域的研究成果,重點在于構建了一個名為AeroVerse的基準套件,用于推動該領域的發展。該套件包含了大規模的無人機第一視角圖文數據集、多種下游任務指令集以及自動化評測方法。
研究背景與挑戰
研究目標是賦能無人機等空天平臺實現自主感知、認知和行動的端到端閉環,構建空天具身世界模型是關鍵。然而,現有研究主要集中在地面智能體,空天智能體方面存在研究空白,主要挑戰包括:無人機具身任務缺乏統一定義;戶外3D數據采集難度高;無人機具身數據標注成本高。
核心貢獻
研究團隊的核心貢獻在于:1. 構建了兩個大規模數據集:AerialAgent-Ego10k(真實城市無人機第一視角圖文數據集)和CyberAgent-Ego500k(虛擬圖文姿態對齊數據集);2. 首次明確定義了五個無人機具身下游任務(環境感知、空間推理、導航探索、路徑規劃和控制),并構建了對應的指令集;3. 開發了一套基于GPT-4的自動化評測方法;4. 使用十多種多模態大模型進行了廣泛實驗,分析了其在無人機智能體數據集上的表現;5. 發布了AeroVerse基準套件,推動空天具身智能領域發展。
AeroSimulator:空天世界模擬器
為了模擬無人機飛行真實場景,研究團隊利用Unreal Engine 4和AirSim搭建了一個模擬器,能夠模擬不同的光照條件、季節和氣候模式,方便模型訓練和真實世界遷移。
數據集構建
AerialAgent-Ego10k數據集包含10,000張高分辨率城市無人機第一視角圖像及其詳細文本描述。CyberAgent-Ego500k數據集則包含了虛擬環境中的圖文姿態對齊數據,用于彌補真實數據不足。
指令集設計
研究團隊設計了五個下游任務指令集:SkyAgent-Scene3k(場景感知)、SkyAgent-Reason3k(空間推理)、SkyAgent-Nav3k(導航探索)、SkyAgent-Plan3k(任務規劃)和SkyAgent-Act3k(行動決策),這些指令集涵蓋了無人機具身任務的各個方面。
模型適配與評估
研究團隊選擇了十多種2D/3D視覺語言模型進行實驗,并使用BLEU、CIDEr、SPICE等傳統評測方法以及基于GPT-4的自動化評測方法對模型性能進行了評估。結果顯示,GPT-4o模型在大多數任務和場景中表現最佳,但模型在復雜場景(如校園場景)下的泛化能力仍有待提高。
實驗分析與討論
實驗結果表明,2D/3D視覺語言模型在無人機智能體任務中具有潛力,但也存在局限性。模型的場景泛化能力和任務泛化能力有待進一步提升。參數數量的增加并不一定與性能的提升成正比。
總而言之,這項研究為空天具身智能領域提供了寶貴的資源和基準,為未來研究提供了方向,也促進了該領域的發展。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,深入關注大模型與AI智能體,及時搜羅生成式AI技術產品。