LeCun世界模型再近一步!Meta研究證明:AI可無先驗理解直覺物理
原標題:LeCun世界模型再近一步!Meta研究證明:AI可無先驗理解直覺物理
文章來源:人工智能學家
內(nèi)容字數(shù):16644字
Meta新研究:AI無需硬編碼即可理解物理直覺
Meta最新研究表明,其研發(fā)的視頻聯(lián)合嵌入預測架構V-JEPA,在無需任何先驗物理知識的情況下,通過自監(jiān)督學習,展現(xiàn)出了對直觀物理學的理解能力,超越了以往基于像素的預測模型和多模態(tài)大型語言模型(MLLM)。這被認為是人工智能領域的一項關鍵性突破,為AI理解物理世界開辟了“第三條路”。
1. 莫拉維克悖論與直觀物理理解
長期以來,AI在高級認知任務上表現(xiàn)優(yōu)異,卻難以理解看似簡單的直觀物理,例如物體不會憑空消失或穿過障礙物等。這被稱為莫拉維克悖論。以往的研究主要集中在兩種方法:結(jié)構化模型(手工編碼物理知識)和基于像素的生成模型(從像素級預測未來)。V-JEPA則代表了一種新的嘗試,它介于兩者之間,在抽象的表征空間中進行預測。
2. V-JEPA架構及工作原理
V-JEPA由編碼器和預測器兩個神經(jīng)網(wǎng)絡組成。編碼器從視頻中提取抽象表示,預測器則預測視頻中被遮蔽部分的表示。通過聯(lián)合訓練,編碼器學習到可預測信息的抽象表示,并忽略低層次特征。在訓練后,V-JEPA可以直接用于評估模型對物理世界的理解程度。通過比較預測的視頻表示與實際觀察到的表示,計算“驚訝度”指標,以此判斷視頻是否違反了物理定律。
3. 實驗結(jié)果與對比
在IntPhys、GRASP和InfLevel三個數(shù)據(jù)集上,V-JEPA在識別違反物理定律的視頻方面顯著優(yōu)于VideoMAEv2等視頻預測模型和Qwen2-VL-7B、Gemini 1.5 Pro等多模態(tài)LLM。V-JEPA在物體持久性、連續(xù)性等屬性上表現(xiàn)出色,準確率遠高于未經(jīng)訓練的網(wǎng)絡,甚至在某些方面超過了人類的表現(xiàn)。然而,在涉及復雜物體交互或需要理解上下文的屬性上,V-JEPA仍存在一定的局限性。
4. 消融實驗與關鍵因素
研究人員進行了消融實驗,探究訓練數(shù)據(jù)、模型大小和預訓練任務對V-JEPA性能的影響。結(jié)果表明,預訓練任務的影響相對較小,在抽象表征空間中進行預測才是關鍵;預訓練數(shù)據(jù)來源對性能影響顯著,HowTo100M數(shù)據(jù)集表現(xiàn)最佳;更大的模型通常表現(xiàn)更好,但即使是小模型也能達到較高的準確率。
5. 結(jié)論與未來展望
V-JEPA證明了深度學習系統(tǒng)無需硬編碼物理知識,也能從原始感知信號中學習到對直觀物理的理解。這項研究為AI理解物理世界提供了新的思路,也為未來AI系統(tǒng)的發(fā)展提供了重要的參考價值。 未來的研究可以進一步探索V-JEPA的局限性,并嘗試改進其在處理復雜場景和物體交互方面的能力。
聯(lián)系作者
文章來源:人工智能學家
作者微信:
作者簡介:致力成為權威的人工智能科技媒體和前沿科技研究機構