希望 2025 年 AI 領域能帶來推理之外的突破。
原標題:李飛飛、謝賽寧等探索MLLM「視覺空間智能」,網友:2025有盼頭了
文章來源:機器之心
內容字數:5435字
機器之心報道:AI 2025 年的突破方向——空間智能
機器之心編輯部預測,2025 年 AI 領域將迎來推理之外的突破,其中“空間智能”將成為重要方向。 人類能夠輕松地在腦海中重建空間,回憶物體的位置和大小,而這正是目前大型語言模型(LLM)所欠缺的。為了評估多模態大語言模型(MLLM)在空間思維上的能力,紐約大學、耶魯大學和斯坦福大學的研究者們創建了 VSI-Bench 基準測試。
VSI-Bench:評估AI的空間智能
1. **基準測試介紹:** VSI-Bench 基于近 290 個真實室內場景視頻,包含超過 5000 個問答對,涵蓋物體計數、相對距離、出現順序、相對方向、物體大小、絕對距離、房間面積和路徑規劃八項任務。視頻數據采用連續時間性輸入,更貼近人類感知世界的方式,比靜態圖像更能豐富空間理解和推理。
2. **評估結果:** 研究者對 15 個 MLLM(包括 Gemini-1.5、GPT-4o 等)進行了評估。結果顯示,盡管 MLLM 表現出了競爭力,但與人類的 79% 平均準確率相比仍有較大差距。Gemini-1.5 Pro 表現最佳,但在需要精確估計的任務上,差距縮小。開源模型表現參差不齊,部分模型甚至低于機會基線。
模型行為分析與主要發現
1. **模型瓶頸:** 研究發現,空間推理是影響 MLLM 在 VSI-Bench 上性能的主要瓶頸,而非視覺感知或語言能力。
2. **錯誤類型:** 模型錯誤主要源于視覺感知、語言智能、關系推理和視角轉換四個方面,其中 71% 的錯誤來自空間推理。
3. **語言提示的影響:** 研究表明,在空間推理任務中,常用的語言提示技術反而會降低模型的準確率。
4. **空間模型構建:** MLLM 在記憶空間時,會構建一系列局部世界模型,而非統一的全局模型。
空間智能的未來
這項名為“Thinking in Space”的研究,由李飛飛教授等學者主導,旨在評估 LLM 在空間推理方面的能力。研究結果表明,盡管目前 MLLM 在空間智能方面仍有很大提升空間,但其展現出的潛力也令人期待。 研究者們相信,未來 AI 助手需要具備更強的空間思維能力,才能更好地在日常生活中導航和互動。 VSI-Bench 的出現,為研究者們提供了一個重要的工具,推動著 AI 在空間智能領域的進步,未來將有更多突破值得期待。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺