李飛飛團(tuán)隊(duì)視覺(jué)AI突破：2025，多模態(tài)大模型迎來(lái)“視覺(jué)空間智能”時(shí)代？

AIGC動(dòng)態(tài)11個(gè)月前發(fā)布機(jī)器之心

希望 2025 年 AI 領(lǐng)域能帶來(lái)推理之外的突破。

原標(biāo)題：李飛飛、謝賽寧等探索MLLM「視覺(jué)空間智能」，網(wǎng)友：2025有盼頭了
文章來(lái)源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：5435字

機(jī)器之心報(bào)道：AI 2025 年的突破方向——空間智能

機(jī)器之心編輯部預(yù)測(cè)，2025 年 AI 領(lǐng)域?qū)⒂瓉?lái)推理之外的突破，其中“空間智能”將成為重要方向。人類能夠輕松地在腦海中重建空間，回憶物體的位置和大小，而這正是目前大型語(yǔ)言模型（LLM）所欠缺的。為了評(píng)估多模態(tài)大語(yǔ)言模型(MLLM)在空間思維上的能力，紐約大學(xué)、耶魯大學(xué)和斯坦福大學(xué)的研究者們創(chuàng)建了 VSI-Bench 基準(zhǔn)測(cè)試。

VSI-Bench：評(píng)估AI的空間智能

1. **基準(zhǔn)測(cè)試介紹:** VSI-Bench 基于近 290 個(gè)真實(shí)室內(nèi)場(chǎng)景視頻，包含超過(guò) 5000 個(gè)問(wèn)答對(duì)，涵蓋物體計(jì)數(shù)、相對(duì)距離、出現(xiàn)順序、相對(duì)方向、物體大小、絕對(duì)距離、房間面積和路徑規(guī)劃八項(xiàng)任務(wù)。視頻數(shù)據(jù)采用連續(xù)時(shí)間性輸入，更貼近人類感知世界的方式，比靜態(tài)圖像更能豐富空間理解和推理。

2. **評(píng)估結(jié)果:** 研究者對(duì) 15 個(gè) MLLM（包括 Gemini-1.5、GPT-4o 等）進(jìn)行了評(píng)估。結(jié)果顯示，盡管 MLLM 表現(xiàn)出了競(jìng)爭(zhēng)力，但與人類的 79% 平均準(zhǔn)確率相比仍有較大差距。Gemini-1.5 Pro 表現(xiàn)最佳，但在需要精確估計(jì)的任務(wù)上，差距縮小。開(kāi)源模型表現(xiàn)參差不齊，部分模型甚至低于機(jī)會(huì)基線。

模型行為分析與主要發(fā)現(xiàn)

1. **模型瓶頸:** 研究發(fā)現(xiàn)，空間推理是影響 MLLM 在 VSI-Bench 上性能的主要瓶頸，而非視覺(jué)感知或語(yǔ)言能力。

2. **錯(cuò)誤類型:** 模型錯(cuò)誤主要源于視覺(jué)感知、語(yǔ)言智能、關(guān)系推理和視角轉(zhuǎn)換四個(gè)方面，其中 71% 的錯(cuò)誤來(lái)自空間推理。

3. **語(yǔ)言提示的影響:** 研究表明，在空間推理任務(wù)中，常用的語(yǔ)言提示技術(shù)反而會(huì)降低模型的準(zhǔn)確率。

4. **空間模型構(gòu)建:** MLLM 在記憶空間時(shí)，會(huì)構(gòu)建一系列局部世界模型，而非統(tǒng)一的全局模型。

空間智能的未來(lái)

這項(xiàng)名為“Thinking in Space”的研究，由李飛飛教授等學(xué)者主導(dǎo)，旨在評(píng)估 LLM 在空間推理方面的能力。研究結(jié)果表明，盡管目前 MLLM 在空間智能方面仍有很大提升空間，但其展現(xiàn)出的潛力也令人期待。研究者們相信，未來(lái) AI 助手需要具備更強(qiáng)的空間思維能力，才能更好地在日常生活中導(dǎo)航和互動(dòng)。 VSI-Bench 的出現(xiàn)，為研究者們提供了一個(gè)重要的工具，推動(dòng)著 AI 在空間智能領(lǐng)域的進(jìn)步，未來(lái)將有更多突破值得期待。

聯(lián)系作者

文章來(lái)源：機(jī)器之心
作者微信：
作者簡(jiǎn)介：專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

閱讀原文

# AIGC動(dòng)態(tài)# 具身智能 # 場(chǎng)景理解 # 多模態(tài)大語(yǔ)言模型 # 視覺(jué)空間推理 # 視覺(jué)語(yǔ)言模型

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。

暫無(wú)評(píng)論

暫無(wú)評(píng)論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

李飛飛團(tuán)隊(duì)視覺(jué)AI突破：2025，多模態(tài)大模型迎來(lái)“視覺(jué)空間智能”時(shí)代？

希望 2025 年 AI 領(lǐng)域能帶來(lái)推理之外的突破。

機(jī)器之心報(bào)道：AI 2025 年的突破方向——空間智能

VSI-Bench：評(píng)估AI的空間智能

模型行為分析與主要發(fā)現(xiàn)

空間智能的未來(lái)

聯(lián)系作者

蘋(píng)果門鈴新功能曝光，F(xiàn)aceID加持！胖東來(lái)超市線上銷售新策略，OPPO宣布注冊(cè)「ophone」商標(biāo)，科技巨頭再掀熱潮！

百川新模型超GPT-4o近20%，首創(chuàng)自約束訓(xùn)練方案突破瓶頸，主打「領(lǐng)域增強(qiáng)」

相關(guān)文章

暫無(wú)評(píng)論

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

李飛飛團(tuán)隊(duì)視覺(jué)AI突破：2025，多模態(tài)大模型迎來(lái)“視覺(jué)空間智能”時(shí)代？

希望 2025 年 AI 領(lǐng)域能帶來(lái)推理之外的突破。

機(jī)器之心報(bào)道：AI 2025 年的突破方向——空間智能

VSI-Bench：評(píng)估AI的空間智能

模型行為分析與主要發(fā)現(xiàn)

空間智能的未來(lái)

聯(lián)系作者

蘋(píng)果門鈴新功能曝光，F(xiàn)aceID加持！胖東來(lái)超市線上銷售新策略，OPPO宣布注冊(cè)「ophone」商標(biāo)，科技巨頭再掀熱潮！

百川新模型超GPT-4o近20%，首創(chuàng)自約束訓(xùn)練方案突破瓶頸，主打「領(lǐng)域增強(qiáng)」

相關(guān)文章

暫無(wú)評(píng)論

李飛飛團(tuán)隊(duì)視覺(jué)AI突破：2025，多模態(tài)大模型迎來(lái)“視覺(jué)空間智能”時(shí)代？

希望 2025 年 AI 領(lǐng)域能帶來(lái)推理之外的突破。

蘋(píng)果門鈴新功能曝光，F(xiàn)aceID加持！胖東來(lái)超市線上銷售新策略，OPPO宣布注冊(cè)「ophone」商標(biāo)，科技巨頭再掀熱潮！

百川新模型超GPT-4o近20%，首創(chuàng)自約束訓(xùn)練方案突破瓶頸，主打「領(lǐng)域增強(qiáng)」