Meta視頻AI王者登場(chǎng),打爆Sora!體操終于不再鬼畜

原標(biāo)題:Meta視頻AI王者登場(chǎng),打爆Sora!體操終于不再鬼畜
文章來源:新智元
內(nèi)容字?jǐn)?shù):6666字
Meta重磅發(fā)布VideoJAM:AI視頻生成連貫性新突破
Meta與特拉維夫大學(xué)的研究人員近日發(fā)布了VideoJAM,一個(gè)用于改進(jìn)視頻生成模型連貫性的全新框架。該框架無需額外數(shù)據(jù)或模型規(guī)模擴(kuò)展,即可顯著提升視頻中動(dòng)作的真實(shí)性和流暢性,在連貫性方面達(dá)到SOTA,甚至超越了Sora等專有模型。
1. AI視頻生成的難題
現(xiàn)有的AI視頻生成模型普遍存在一個(gè)難題:難以準(zhǔn)確生成真實(shí)的。這是因?yàn)閭鹘y(tǒng)的訓(xùn)練目標(biāo)更側(cè)重于視頻外觀的保真度,而忽略了的連貫性和物理規(guī)律。Meta的研究團(tuán)隊(duì)發(fā)現(xiàn),基于像素的損失函數(shù)對(duì)視頻幀的順序幾乎不敏感,這導(dǎo)致模型過度關(guān)注外觀,而忽略了時(shí)間一致性。
2. VideoJAM:巧妙的解決方案
VideoJAM通過修改目標(biāo)函數(shù),引入顯式的先驗(yàn)來解決這一問題。它利用單一的學(xué)習(xí)表征同時(shí)預(yù)測(cè)視頻的外觀和,迫使模型同時(shí)捕捉視覺信息和動(dòng)態(tài)變化,從而提升對(duì)的理解能力。VideoJAM由兩個(gè)互補(bǔ)模塊組成:訓(xùn)練階段擴(kuò)展目標(biāo)函數(shù),同時(shí)預(yù)測(cè)像素和對(duì)應(yīng)的;推理階段引入“Inner-Guidance”機(jī)制,利用模型自身的預(yù)測(cè)作為動(dòng)態(tài)引導(dǎo)信號(hào),確保動(dòng)作的連貫性。
3. VideoJAM的卓越性能
VideoJAM在多個(gè)方面展現(xiàn)了其優(yōu)越性。它只需對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào),即可實(shí)現(xiàn)顯著的連貫性提升。在定性和定量實(shí)驗(yàn)中,VideoJAM生成的視頻在的真實(shí)性、流暢性和物理一致性上都遠(yuǎn)超其他領(lǐng)先模型,例如Sora和Runway Gen3。即使是高難度動(dòng)作,例如體操、花樣滑冰以及復(fù)雜的物理交互(例如手指壓粘液球、物體碎裂),VideoJAM也能生成令人驚艷的效果。
4. 定性與定量實(shí)驗(yàn)結(jié)果
定性實(shí)驗(yàn)通過多種復(fù)雜的場(chǎng)景,直觀地展現(xiàn)了VideoJAM與其他模型的差異。在體操、籃球、滑板等場(chǎng)景中,VideoJAM生成的視頻明顯更加流暢自然,符合物理規(guī)律,而其他模型則經(jīng)常出現(xiàn)動(dòng)作不協(xié)調(diào)、違反物理規(guī)律等問題。定量實(shí)驗(yàn)則通過自動(dòng)指標(biāo)和人工評(píng)估,進(jìn)一步證實(shí)了VideoJAM在連貫性、外觀質(zhì)量和提示詞一致性方面的顯著優(yōu)勢(shì)。
5. VideoJAM的局限性與未來展望
盡管VideoJAM取得了顯著成果,但仍存在一些局限性。例如,在遠(yuǎn)景場(chǎng)景或復(fù)雜的物理交互中,模型的表現(xiàn)仍有提升空間。未來研究可以探索更精細(xì)的表示和物理模型的集成,進(jìn)一步提升VideoJAM的性能,為更逼真、更自然的AI視頻生成鋪平道路。
6. 總結(jié)
VideoJAM為AI視頻生成領(lǐng)域帶來了突破性的進(jìn)展,它通過巧妙的設(shè)計(jì),有效地解決了連貫性難題。其通用性和高效性使其具有廣泛的應(yīng)用前景,為未來更真實(shí)、更復(fù)雜的AI視頻生成提供了新的方向。
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺(tái),致力于推動(dòng)中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國新智能時(shí)代。

粵公網(wǎng)安備 44011502001135號(hào)