物理直覺不再是人類專屬?LeCun等新研究揭示AI可如何涌現(xiàn)出此能力
構(gòu)建世界模型前,需先理解世界。
原標(biāo)題:物理直覺不再是人類專屬?LeCun等新研究揭示AI可如何涌現(xiàn)出此能力
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):8328字
Yann LeCun團(tuán)隊(duì)最新研究:基于自然視頻,AI模型涌現(xiàn)直覺物理理解
圖靈獎(jiǎng)得主Yann LeCun一直對(duì)主流的自回歸LLM持批判態(tài)度,他認(rèn)為世界模型才是通往AGI的正確方向。近日,其團(tuán)隊(duì)發(fā)表的最新研究成果似乎印證了他的觀點(diǎn):通過在自然視頻上進(jìn)行自監(jiān)督預(yù)訓(xùn)練,一個(gè)名為V-JEPA的模型展現(xiàn)出了令人驚訝的直覺物理理解能力。
什么是直覺物理理解?
直覺物理理解是人類認(rèn)知的基礎(chǔ),指對(duì)物體行為的預(yù)測(cè)能力,例如物體不會(huì)憑空出現(xiàn)或消失、穿透障礙物等。 這項(xiàng)能力在人類嬰兒以及許多動(dòng)物身上都存在,被認(rèn)為是核心知識(shí)系統(tǒng)的一部分。而現(xiàn)有的AI系統(tǒng)在這一方面卻表現(xiàn)欠佳,這體現(xiàn)了莫拉維克悖論。
V-JEPA:一種基于聯(lián)合嵌入預(yù)測(cè)架構(gòu)的模型
為了解決這個(gè)問題,LeCun團(tuán)隊(duì)提出了一種新的模型——V-JEPA(視頻聯(lián)合嵌入預(yù)測(cè)架構(gòu))。V-JEPA 不同于以往的結(jié)構(gòu)化模型(手工編碼物體關(guān)系)和基于像素的生成模型,它在表示空間中進(jìn)行預(yù)測(cè),學(xué)習(xí)抽象表示,并通過預(yù)測(cè)視頻中被掩蔽部分的表示來學(xué)習(xí)。這種機(jī)制與認(rèn)知神經(jīng)科學(xué)的預(yù)測(cè)編碼假說相一致。
基于預(yù)期違反的評(píng)估方法
研究團(tuán)隊(duì)采用預(yù)期違反范式來評(píng)估V-JEPA的物理直覺理解能力。該范式向模型展示物理上可能和不可能的視頻對(duì),通過測(cè)量模型對(duì)不可能視頻的“意外程度”來判斷其理解能力。實(shí)驗(yàn)結(jié)果顯示,V-JEPA在IntPhys基準(zhǔn)測(cè)試上達(dá)到了98%的零樣本準(zhǔn)確率,在InfLevel基準(zhǔn)測(cè)試上達(dá)到了62%的零樣本準(zhǔn)確率,顯著優(yōu)于其他視頻預(yù)測(cè)模型和多模態(tài)大語言模型。
V-JEPA的性能分析與優(yōu)勢(shì)
研究團(tuán)隊(duì)對(duì)V-JEPA的各個(gè)屬性進(jìn)行了分析,發(fā)現(xiàn)其在物體持久性、連續(xù)性、形狀恒常性等方面表現(xiàn)出色。即使是小型模型或在有限數(shù)據(jù)上訓(xùn)練的模型也能達(dá)到顯著高于隨機(jī)水平的性能。這表明在學(xué)習(xí)到的表示空間中進(jìn)行視頻預(yù)測(cè)是獲得物理直覺理解的一個(gè)穩(wěn)健目標(biāo)。與人類表現(xiàn)的比較也顯示V-JEPA在許多方面達(dá)到了相同或更高的性能。
研究結(jié)論與意義
這項(xiàng)研究表明,通過自監(jiān)督預(yù)訓(xùn)練,深度學(xué)習(xí)系統(tǒng)可以從原始感知信號(hào)中學(xué)習(xí)到必要的抽象,從而發(fā)展出直覺物理理解能力,而無需依賴于預(yù)先定義的抽象或核心知識(shí)。這為構(gòu)建具有高級(jí)人類智能水平的AI系統(tǒng)提供了新的思路,也為L(zhǎng)eCun所倡導(dǎo)的世界模型研究方向提供了強(qiáng)有力的支持。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)