国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

<sup id="osome"><bdo id="osome"></bdo></sup><li id="osome"></li>

物理直覺不再是人類專屬？LeCun等新研究揭示AI可如何涌現(xiàn)出此能力

AIGC動態(tài)10個月前發(fā)布機器之心

391 0 0

構建世界模型前，需先理解世界。

物理直覺不再是人類專屬？LeCun等新研究揭示AI可如何涌現(xiàn)出此能力

原標題：物理直覺不再是人類專屬？LeCun等新研究揭示AI可如何涌現(xiàn)出此能力
文章來源：機器之心
內容字數(shù)：8328字

Yann LeCun團隊最新研究：基于自然視頻，AI模型涌現(xiàn)直覺物理理解

圖靈獎得主Yann LeCun一直對主流的自回歸LLM持批判態(tài)度，他認為世界模型才是通往AGI的正確方向。近日，其團隊發(fā)表的最新研究成果似乎印證了他的觀點：通過在自然視頻上進行自監(jiān)督預訓練，一個名為V-JEPA的模型展現(xiàn)出了令人驚訝的直覺物理理解能力。

什么是直覺物理理解？
直覺物理理解是人類認知的基礎，指對物體行為的預測能力，例如物體不會憑空出現(xiàn)或消失、穿透障礙物等。這項能力在人類嬰兒以及許多動物身上都存在，被認為是核心知識系統(tǒng)的一部分。而現(xiàn)有的AI系統(tǒng)在這一方面卻表現(xiàn)欠佳，這體現(xiàn)了莫拉維克悖論。
V-JEPA：一種基于聯(lián)合嵌入預測架構的模型
為了解決這個問題，LeCun團隊提出了一種新的模型——V-JEPA（視頻聯(lián)合嵌入預測架構）。V-JEPA 不同于以往的結構化模型（手工編碼物體關系）和基于像素的生成模型，它在表示空間中進行預測，學習抽象表示，并通過預測視頻中被掩蔽部分的表示來學習。這種機制與認知神經科學的預測編碼假說相一致。
基于預期違反的評估方法
研究團隊采用預期違反范式來評估V-JEPA的物理直覺理解能力。該范式向模型展示物理上可能和不可能的視頻對，通過測量模型對不可能視頻的“意外程度”來判斷其理解能力。實驗結果顯示，V-JEPA在IntPhys基準測試上達到了98%的零樣本準確率，在InfLevel基準測試上達到了62%的零樣本準確率，顯著優(yōu)于其他視頻預測模型和多模態(tài)大語言模型。
V-JEPA的性能分析與優(yōu)勢
研究團隊對V-JEPA的各個屬性進行了分析，發(fā)現(xiàn)其在物體持久性、連續(xù)性、形狀恒常性等方面表現(xiàn)出色。即使是小型模型或在有限數(shù)據(jù)上訓練的模型也能達到顯著高于隨機水平的性能。這表明在學習到的表示空間中進行視頻預測是獲得物理直覺理解的一個穩(wěn)健目標。與人類表現(xiàn)的比較也顯示V-JEPA在許多方面達到了相同或更高的性能。
研究結論與意義
這項研究表明，通過自監(jiān)督預訓練，深度學習系統(tǒng)可以從原始感知信號中學習到必要的抽象，從而發(fā)展出直覺物理理解能力，而無需依賴于預先定義的抽象或核心知識。這為構建具有高級人類智能水平的AI系統(tǒng)提供了新的思路，也為LeCun所倡導的世界模型研究方向提供了強有力的支持。