謝賽寧、李飛飛「空間智能」新作：多模態大模型仍難突破空間推理

AIGC動態5個月前發布人工智能學家

466 0 0

原標題：謝賽寧、李飛飛「空間智能」新作：多模態大模型仍難突破空間推理
文章來源：人工智能學家
內容字數：8364字

多模態大語言模型的空間推理能力研究

本文總結了紐約大學謝賽寧團隊的研究，該研究探索了多模態大語言模型（MLLMs）在視覺空間智能方面的能力。研究發現，雖然MLLMs在空間推理方面仍有很大提升空間，但它們已經展現出一定的“空間意識”和局部世界模型構建能力。

1. 研究背景與目標

人類擁有強大的視覺空間智能，能夠通過連續的視覺觀察記憶空間并進行推理。研究團隊旨在探究MLLMs是否也能從視頻中進行“空間思維”，并評估其空間推理能力。他們關注MLLMs如何“看見、記憶和回憶空間”。

2. 研究方法與數據

研究團隊利用現有的空間掃描視頻及其ground-truth標注，自動生成視覺問答(VQA)問題，并由人工進行質量控制。他們構建了一個新的基于視頻的視覺空間智能基準（VSI-Bench），包含5000多個問答對，涵蓋了各種視覺空間智能任務（關系任務和度量任務）。

3. 主要發現

研究發現，即使是性能最好的Gemini Pro模型，其空間推理能力也遠低于人類。常見的語言推理技術（如思維鏈、自洽性、思維樹）無法提升MLLMs的空間推理能力，反而可能降低準確率。MLLMs在視角轉換、自我中心轉換和長視野追蹤方面存在困難。它們傾向于構建一系列局部世界模型，而非一個連貫的全局模型，這限制了其處理遠距離物體關系的能力。

4. 模型局限性與未來方向

研究表明，空間推理能力，而非物體識別或語言能力，是MLLMs在視覺空間智能任務中的主要瓶頸。 MLLMs在處理空間信息時，缺乏人類可以調整和完善心智模型的能力。未來研究方向應集中在開發更有效的空間記憶機制，以提升MLLMs的空間推理能力。

5. 研究意義與應用前景

這項研究揭示了MLLMs在視覺空間智能方面的局限性和潛力。它強調了視覺空間智能與語言智能的差異，并為未來開發更強大的空間推理模型指明了方向。研究團隊相信，視覺空間智能在現實世界中的應用即將到來，例如，人工智能眼鏡可以幫助用戶導航和定位。

6. 補充信息

研究中使用的視頻以2倍速播放，Gemini-1.5 Pro模型在所有空間推理問題上均未答對。研究團隊通過提示模型在笛卡爾網格上“可視化”其記憶來探究模型內部的工作機制。

總而言之，該研究對MLLMs的空間推理能力進行了深入探究，為未來人工智能的發展提供了寶貴的經驗和方向。

聯系作者

文章來源：人工智能學家
作者微信：
作者簡介：致力成為權威的人工智能科技媒體和前沿科技研究機構

閱讀原文

# AIGC動態 # 多模態大模型 # 李飛飛 # 空間推理 # 空間智能 # 謝賽寧

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

謝賽寧、李飛飛「空間智能」新作：多模態大模型仍難突破空間推理

多模態大語言模型的空間推理能力研究

1. 研究背景與目標

2. 研究方法與數據

3. 主要發現

4. 模型局限性與未來方向

5. 研究意義與應用前景

6. 補充信息

聯系作者

不用ChatGPT的圖靈獎得主，正在深耕AI教育｜甲子光年

AI大模型權威評測：豆包中文對話最強，OpenAI o1推理和數學占優

相關文章

暫無評論