多模態大語言模型的空間推理能力研究
本文總結了紐約大學謝賽寧團隊的研究,該研究探索了多模態大語言模型(MLLMs)在視覺空間智能方面的能力。研究發現,雖然MLLMs在空間推理方面仍有很大提升空間,但它們已經展現出一定的“空間意識”和局部世界模型構建能力。
1. 研究背景與目標
人類擁有強大的視覺空間智能,能夠通過連續的視覺觀察記憶空間并進行推理。研究團隊旨在探究MLLMs是否也能從視頻中進行“空間思維”,并評估其空間推理能力。他們關注MLLMs如何“看見、記憶和回憶空間”。
2. 研究方法與數據
研究團隊利用現有的空間掃描視頻及其ground-truth標注,自動生成視覺問答(VQA)問題,并由人工進行質量控制。他們構建了一個新的基于視頻的視覺空間智能基準(VSI-Bench),包含5000多個問答對,涵蓋了各種視覺空間智能任務(關系任務和度量任務)。
3. 主要發現
研究發現,即使是性能最好的Gemini Pro模型,其空間推理能力也遠低于人類。常見的語言推理技術(如思維鏈、自洽性、思維樹)無法提升MLLMs的空間推理能力,反而可能降低準確率。MLLMs在視角轉換、自我中心轉換和長視野追蹤方面存在困難。它們傾向于構建一系列局部世界模型,而非一個連貫的全局模型,這限制了其處理遠距離物體關系的能力。
4. 模型局限性與未來方向
研究表明,空間推理能力,而非物體識別或語言能力,是MLLMs在視覺空間智能任務中的主要瓶頸。 MLLMs在處理空間信息時,缺乏人類可以調整和完善心智模型的能力。未來研究方向應集中在開發更有效的空間記憶機制,以提升MLLMs的空間推理能力。
5. 研究意義與應用前景
這項研究揭示了MLLMs在視覺空間智能方面的局限性和潛力。它強調了視覺空間智能與語言智能的差異,并為未來開發更強大的空間推理模型指明了方向。 研究團隊相信,視覺空間智能在現實世界中的應用即將到來,例如,人工智能眼鏡可以幫助用戶導航和定位。
6. 補充信息
研究中使用的視頻以2倍速播放,Gemini-1.5 Pro模型在所有空間推理問題上均未答對。研究團隊通過提示模型在笛卡爾網格上“可視化”其記憶來探究模型內部的工作機制。
總而言之,該研究對MLLMs的空間推理能力進行了深入探究,為未來人工智能的發展提供了寶貴的經驗和方向。
聯系作者
文章來源:人工智能學家
作者微信:
作者簡介:致力成為權威的人工智能科技媒體和前沿科技研究機構