讓視覺(jué)語(yǔ)言模型搞空間推理,谷歌又整新活了
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:讓視覺(jué)語(yǔ)言模型搞空間推理,谷歌又整新活了
關(guān)鍵字:空間,模型,數(shù)據(jù),視覺(jué),研究者
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):8656字
內(nèi)容摘要:
機(jī)器之心報(bào)道
機(jī)器之心編輯部視覺(jué)語(yǔ)言模型雖然強(qiáng)大,但缺乏空間推理能力,最近 Google 的新論文說(shuō)它的 SpatialVLM 可以做,看看他們是怎么做的。視覺(jué)語(yǔ)言模型 (VLM) 已經(jīng)在廣泛的任務(wù)上取得了顯著進(jìn)展,包括圖像描述、視覺(jué)問(wèn)答 (VQA)、具身規(guī)劃、動(dòng)作識(shí)別等等。然而大多數(shù)視覺(jué)語(yǔ)言模型在空間推理方面仍然存在一些困難,比如需要理解目標(biāo)在三維空間中的位置或空間關(guān)系的任務(wù)。
關(guān)于這一問(wèn)題,研究者們常常從「人類」身上獲得啟發(fā):通過(guò)具身體驗(yàn)和進(jìn)化發(fā)展,人類擁有固有的空間推理技能,可以毫不費(fèi)力地確定空間關(guān)系,比如目標(biāo)相對(duì)位置或估算距離和大小,而無(wú)需復(fù)雜的思維鏈或心理計(jì)算。
這種對(duì)直接空間推理任務(wù)的熟練,與當(dāng)前視覺(jué)語(yǔ)言模型能力的局限形成鮮明對(duì)比,并引發(fā)了一個(gè)引人注目的研究問(wèn)題:是否能夠賦予視覺(jué)語(yǔ)言模型類似于人類的空間推理能力?
最近,谷歌提出了一種具備空間推理能力的視覺(jué)語(yǔ)言模型:SpatialVLM。論文標(biāo)題:SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities
論文地址:https
原文鏈接:讓視覺(jué)語(yǔ)言模型搞空間推理,谷歌又整新活了
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)