構建世界模型前,需先理解世界。
原標題:物理直覺不再是人類專屬?LeCun等新研究揭示AI可如何涌現出此能力
文章來源:機器之心
內容字數:8328字
Yann LeCun團隊最新研究:基于自然視頻,AI模型涌現直覺物理理解
圖靈獎得主Yann LeCun一直對主流的自回歸LLM持批判態度,他認為世界模型才是通往AGI的正確方向。近日,其團隊發表的最新研究成果似乎印證了他的觀點:通過在自然視頻上進行自監督預訓練,一個名為V-JEPA的模型展現出了令人驚訝的直覺物理理解能力。
什么是直覺物理理解?
直覺物理理解是人類認知的基礎,指對物體行為的預測能力,例如物體不會憑空出現或消失、穿透障礙物等。 這項能力在人類嬰兒以及許多動物身上都存在,被認為是核心知識系統的一部分。而現有的AI系統在這一方面卻表現欠佳,這體現了莫拉維克悖論。
V-JEPA:一種基于聯合嵌入預測架構的模型
為了解決這個問題,LeCun團隊提出了一種新的模型——V-JEPA(視頻聯合嵌入預測架構)。V-JEPA 不同于以往的結構化模型(手工編碼物體關系)和基于像素的生成模型,它在表示空間中進行預測,學習抽象表示,并通過預測視頻中被掩蔽部分的表示來學習。這種機制與認知神經科學的預測編碼假說相一致。
基于預期違反的評估方法
研究團隊采用預期違反范式來評估V-JEPA的物理直覺理解能力。該范式向模型展示物理上可能和不可能的視頻對,通過測量模型對不可能視頻的“意外程度”來判斷其理解能力。實驗結果顯示,V-JEPA在IntPhys基準測試上達到了98%的零樣本準確率,在InfLevel基準測試上達到了62%的零樣本準確率,顯著優于其他視頻預測模型和多模態大語言模型。
V-JEPA的性能分析與優勢
研究團隊對V-JEPA的各個屬性進行了分析,發現其在物體持久性、連續性、形狀恒常性等方面表現出色。即使是小型模型或在有限數據上訓練的模型也能達到顯著高于隨機水平的性能。這表明在學習到的表示空間中進行視頻預測是獲得物理直覺理解的一個穩健目標。與人類表現的比較也顯示V-JEPA在許多方面達到了相同或更高的性能。
研究結論與意義
這項研究表明,通過自監督預訓練,深度學習系統可以從原始感知信號中學習到必要的抽象,從而發展出直覺物理理解能力,而無需依賴于預先定義的抽象或核心知識。這為構建具有高級人類智能水平的AI系統提供了新的思路,也為LeCun所倡導的世界模型研究方向提供了強有力的支持。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺