讓視覺語言模型搞空間推理，谷歌又整新活了

AIGC動態2年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：讓視覺語言模型搞空間推理，谷歌又整新活了
關鍵字：空間,模型,數據,視覺,研究者
文章來源：機器之心
內容字數：8656字

內容摘要：

機器之心報道
機器之心編輯部視覺語言模型雖然強大，但缺乏空間推理能力，最近 Google 的新論文說它的 SpatialVLM 可以做，看看他們是怎么做的。視覺語言模型 (VLM) 已經在廣泛的任務上取得了顯著進展，包括圖像描述、視覺問答 (VQA)、具身規劃、動作識別等等。然而大多數視覺語言模型在空間推理方面仍然存在一些困難，比如需要理解目標在三維空間中的位置或空間關系的任務。
關于這一問題，研究者們常常從「人類」身上獲得啟發：通過具身體驗和進化發展，人類擁有固有的空間推理技能，可以毫不費力地確定空間關系，比如目標相對位置或估算距離和大小，而無需復雜的思維鏈或心理計算。
這種對直接空間推理任務的熟練，與當前視覺語言模型能力的局限形成鮮明對比，并引發了一個引人注目的研究問題：是否能夠賦予視覺語言模型類似于人類的空間推理能力？
最近，谷歌提出了一種具備空間推理能力的視覺語言模型：SpatialVLM。論文標題：SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities
論文地址：https

原文鏈接：讓視覺語言模型搞空間推理，谷歌又整新活了