VSI-Bench

VSI-Bench – 李飛飛謝賽寧團隊推出的視覺空間智能基準測試集

VSI-Bench是一種全新的視覺空間智能基準測試集，由李飛飛、謝賽寧及其研究團隊共同開發，旨在評估多模態大型語言模型（MLLMs）在空間認知和理解方面的能力。該基準測試集涵蓋了超過5000個問題-答案對，基于近290個真實室內場景視頻，涉及住宅、辦公室以及工廠等多種環境。VSI-Bench的設計包括多種任務類型，如配置型任務、測量估計和時空任務，旨在系統性地測試和提升MLLMs的視覺空間智能表現。

VSI-Bench是什么

VSI-Bench（Visual-Spatial Intelligence Benchmark）是由李飛飛、謝賽寧及其研究團隊推出的一項視覺空間智能基準測試集，專門用于評估多模態大型語言模型（MLLMs）在空間認知與理解能力方面的表現。該測試集包含超過5000個問答對，基于近290個真實室內場景視頻，涵蓋住宅、辦公室和工廠等多種環境。VSI-Bench的任務類型多樣，包括配置型任務（如物體計數和相對距離）、測量估計（如物體尺寸和房間大小）以及時空任務（如物體出現順序），旨在系統地測試和提高MLLMs在視覺空間智能方面的能力。

VSI-Bench

VSI-Bench的主要功能

視覺空間智能評估：量化多模態大型語言模型（MLLMs）在視覺空間智能上的表現，包括空間關系的感知、理解及記憶能力。
標準化基準測試：提供一個包含5000多個問答對的標準化測試集，用于基準測試和不同MLLMs在視覺空間任務中的性能比較。
任務多樣性：涵蓋配置型任務（如物體計數、相對距離、相對方向和路線規劃）、測量估計（如物體尺寸、房間大小和絕對距離）以及時空任務（如物體出現順序），全面反映視覺空間智能的多個維度。
視頻理解能力：通過視頻輸入測試MLLMs對連續時間性信息的理解，模擬人類觀察世界的方式，相較于靜態圖像更具真實性。
數據質量控制：通過人工審核確保數據的高質量，有效消除歧義和錯誤標注，從而提高測試結果的可信度。

VSI-Bench的技術原理

數據集構建：基于多個公共室內3D場景重建數據集（如ScanNet、ScanNet++和ARKitScenes），提供高保真度的視頻掃描和對象級別的3D注釋。
問題-答案對生成：利用數據集中的元信息（如對象類別和邊界框）和問題模板自動生成問答對，同時對路線規劃任務進行人工標注。
質量控制措施：實施人工審核流程，確保問題的清晰性和無歧義性，對錯誤或模糊的問題進行追溯和修正。
模型評估方法：在零樣本設置下評估多種視頻支持的MLLMs，采用默認提示進行測試，并使用精確匹配和模糊匹配作為主要評估標準。
性能指標設定：針對多項選擇題（MCA）任務使用準確度（ACC），對于數值答案（NA）任務引入新的度量標準——平均相對準確度（MRA）。
認知圖生成：引導MLLMs預測視頻中對象的中心位置，從而生成認知圖，評估模型的內部空間表示和記憶能力。