原標題:Meta視頻AI王者登場,打爆Sora!體操終于不再鬼畜
文章來源:新智元
內容字數:6666字
Meta重磅發布VideoJAM:AI視頻生成連貫性新突破
Meta與特拉維夫大學的研究人員近日發布了VideoJAM,一個用于改進視頻生成模型連貫性的全新框架。該框架無需額外數據或模型規模擴展,即可顯著提升視頻中動作的真實性和流暢性,在連貫性方面達到SOTA,甚至超越了Sora等專有模型。
1. AI視頻生成的難題
現有的AI視頻生成模型普遍存在一個難題:難以準確生成真實的。這是因為傳統的訓練目標更側重于視頻外觀的保真度,而忽略了的連貫性和物理規律。Meta的研究團隊發現,基于像素的損失函數對視頻幀的順序幾乎不敏感,這導致模型過度關注外觀,而忽略了時間一致性。
2. VideoJAM:巧妙的解決方案
VideoJAM通過修改目標函數,引入顯式的先驗來解決這一問題。它利用單一的學習表征同時預測視頻的外觀和,迫使模型同時捕捉視覺信息和動態變化,從而提升對的理解能力。VideoJAM由兩個互補模塊組成:訓練階段擴展目標函數,同時預測像素和對應的;推理階段引入“Inner-Guidance”機制,利用模型自身的預測作為動態引導信號,確保動作的連貫性。
3. VideoJAM的卓越性能
VideoJAM在多個方面展現了其優越性。它只需對預訓練模型進行微調,即可實現顯著的連貫性提升。在定性和定量實驗中,VideoJAM生成的視頻在的真實性、流暢性和物理一致性上都遠超其他領先模型,例如Sora和Runway Gen3。即使是高難度動作,例如體操、花樣滑冰以及復雜的物理交互(例如手指壓粘液球、物體碎裂),VideoJAM也能生成令人驚艷的效果。
4. 定性與定量實驗結果
定性實驗通過多種復雜的場景,直觀地展現了VideoJAM與其他模型的差異。在體操、籃球、滑板等場景中,VideoJAM生成的視頻明顯更加流暢自然,符合物理規律,而其他模型則經常出現動作不協調、違反物理規律等問題。定量實驗則通過自動指標和人工評估,進一步證實了VideoJAM在連貫性、外觀質量和提示詞一致性方面的顯著優勢。
5. VideoJAM的局限性與未來展望
盡管VideoJAM取得了顯著成果,但仍存在一些局限性。例如,在遠景場景或復雜的物理交互中,模型的表現仍有提升空間。未來研究可以探索更精細的表示和物理模型的集成,進一步提升VideoJAM的性能,為更逼真、更自然的AI視頻生成鋪平道路。
6. 總結
VideoJAM為AI視頻生成領域帶來了突破性的進展,它通過巧妙的設計,有效地解決了連貫性難題。其通用性和高效性使其具有廣泛的應用前景,為未來更真實、更復雜的AI視頻生成提供了新的方向。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。