
AIGC動態歡迎閱讀
原標題:讓視覺語言模型搞空間推理,谷歌又整新活了
關鍵字:空間,模型,數據,視覺,研究者
文章來源:機器之心
內容字數:8656字
內容摘要:
機器之心報道
機器之心編輯部視覺語言模型雖然強大,但缺乏空間推理能力,最近 Google 的新論文說它的 SpatialVLM 可以做,看看他們是怎么做的。視覺語言模型 (VLM) 已經在廣泛的任務上取得了顯著進展,包括圖像描述、視覺問答 (VQA)、具身規劃、動作識別等等。然而大多數視覺語言模型在空間推理方面仍然存在一些困難,比如需要理解目標在三維空間中的位置或空間關系的任務。
關于這一問題,研究者們常常從「人類」身上獲得啟發:通過具身體驗和進化發展,人類擁有固有的空間推理技能,可以毫不費力地確定空間關系,比如目標相對位置或估算距離和大小,而無需復雜的思維鏈或心理計算。
這種對直接空間推理任務的熟練,與當前視覺語言模型能力的局限形成鮮明對比,并引發了一個引人注目的研究問題:是否能夠賦予視覺語言模型類似于人類的空間推理能力?
最近,谷歌提出了一種具備空間推理能力的視覺語言模型:SpatialVLM。論文標題:SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities
論文地址:https
原文鏈接:讓視覺語言模型搞空間推理,谷歌又整新活了
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...

粵公網安備 44011502001135號