VSI-Bench – 李飛飛謝賽寧團隊推出的視覺空間智能基準測試集
VSI-Bench是一種全新的視覺空間智能基準測試集,由李飛飛、謝賽寧及其研究團隊共同開發,旨在評估多模態大型語言模型(MLLMs)在空間認知和理解方面的能力。該基準測試集涵蓋了超過5000個問題-答案對,基于近290個真實室內場景視頻,涉及住宅、辦公室以及工廠等多種環境。VSI-Bench的設計包括多種任務類型,如配置型任務、測量估計和時空任務,旨在系統性地測試和提升MLLMs的視覺空間智能表現。
VSI-Bench是什么
VSI-Bench(Visual-Spatial Intelligence Benchmark)是由李飛飛、謝賽寧及其研究團隊推出的一項視覺空間智能基準測試集,專門用于評估多模態大型語言模型(MLLMs)在空間認知與理解能力方面的表現。該測試集包含超過5000個問答對,基于近290個真實室內場景視頻,涵蓋住宅、辦公室和工廠等多種環境。VSI-Bench的任務類型多樣,包括配置型任務(如物體計數和相對距離)、測量估計(如物體尺寸和房間大小)以及時空任務(如物體出現順序),旨在系統地測試和提高MLLMs在視覺空間智能方面的能力。
VSI-Bench的主要功能
- 視覺空間智能評估:量化多模態大型語言模型(MLLMs)在視覺空間智能上的表現,包括空間關系的感知、理解及記憶能力。
- 標準化基準測試:提供一個包含5000多個問答對的標準化測試集,用于基準測試和不同MLLMs在視覺空間任務中的性能比較。
- 任務多樣性:涵蓋配置型任務(如物體計數、相對距離、相對方向和路線規劃)、測量估計(如物體尺寸、房間大小和絕對距離)以及時空任務(如物體出現順序),全面反映視覺空間智能的多個維度。
- 視頻理解能力:通過視頻輸入測試MLLMs對連續時間性信息的理解,模擬人類觀察世界的方式,相較于靜態圖像更具真實性。
- 數據質量控制:通過人工審核確保數據的高質量,有效消除歧義和錯誤標注,從而提高測試結果的可信度。
VSI-Bench的技術原理
- 數據集構建:基于多個公共室內3D場景重建數據集(如ScanNet、ScanNet++和ARKitScenes),提供高保真度的視頻掃描和對象級別的3D注釋。
- 問題-答案對生成:利用數據集中的元信息(如對象類別和邊界框)和問題模板自動生成問答對,同時對路線規劃任務進行人工標注。
- 質量控制措施:實施人工審核流程,確保問題的清晰性和無歧義性,對錯誤或模糊的問題進行追溯和修正。
- 模型評估方法:在零樣本設置下評估多種視頻支持的MLLMs,采用默認提示進行測試,并使用精確匹配和模糊匹配作為主要評估標準。
- 性能指標設定:針對多項選擇題(MCA)任務使用準確度(ACC),對于數值答案(NA)任務引入新的度量標準——平均相對準確度(MRA)。
- 認知圖生成:引導MLLMs預測視頻中對象的中心位置,從而生成認知圖,評估模型的內部空間表示和記憶能力。
VSI-Bench的項目地址
- 項目官網:vision-x-nyu.github.io/thinking-in-space
- GitHub倉庫:https://github.com/vision-x-nyu/thinking-in-space
- HuggingFace模型庫:https://huggingface.co/datasets/nyu-visionx/VSI-Bench
- arXiv技術論文:https://arxiv.org/pdf/2412.14171
VSI-Bench的應用場景
- 機器人導航與人機交互:在機器人技術領域,通過評估和訓練MLLMs,提升其對空間布局的理解,增強機器人在未知環境中的導航與避障能力。
- 增強現實(AR)與虛擬現實(VR):在AR和VR應用中,幫助MLLMs更好地理解用戶的物理空間環境,從而提供更加自然的交互體驗。
- 自動駕駛技術:自動駕駛系統需具備精準的空間理解能力,以應對復雜交通場景,VSI-Bench為支持自動駕駛的視覺空間智能系統的開發與測試提供了基礎。
- 智能家居技術:智能家居系統需要能夠理解居住空間的布局及物置,VSI-Bench幫助訓練MLLMs,以提升其在智能家居控制及自動化方面的表現。
- 室內設計與建筑規劃:評估MLLMs在空間規劃和設計方面的應用,助力系統提供更合理的布局建議。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...