Meta新視頻生成框架拿捏倒立雜技，雙人舞也能完美同步！一致性暴增近20%，可無縫集成DiT模型

訓練時引入信息表示

Meta新視頻生成框架拿捏倒立雜技，雙人舞也能完美同步！運動一致性暴增近20%，可無縫集成DiT模型

原標題：Meta新視頻生成框架拿捏倒立雜技，雙人舞也能完美同步！一致性暴增近20%，可無縫集成DiT模型
文章來源：量子位
內容字數：3391字

Meta GenAI團隊的VideoJAM：視頻生成一致性新突破

Meta GenAI團隊近日發布了全新的視頻生成框架VideoJAM，該框架在處理視頻中的一致性問題上取得了顯著突破，其動態效果甚至超越了Sora和Gen3等現有主流模型。VideoJAM基于Diffusion Model（DiT）架構，但通過巧妙的設計，顯著提升了視頻生成中的質量，即使是復雜且快速的場景，也能呈現出高度逼真和物理一致的效果。

1. VideoJAM的驚艷效果

VideoJAM在各種復雜場景下的表現令人印象深刻：無論是快速變化的舞蹈動作、復雜的倒立動作，還是細微的蠟燭熄滅過程（包括火苗晃動和白煙），甚至是書法筆跡與紙上字跡的同步，以及史萊姆的形變和粘連效果，都展現出極高的真實感和物理準確性。甚至像雜技演員拋接三個球這樣的高難度動作，其拋物線軌跡也得到了精準的還原。這些例子充分展示了VideoJAM在一致性方面的巨大進步。

2. 性能提升顯著超越現有模型

在4B和30B規模的DiT模型上進行的評估表明，VideoJAM顯著提升了質量。相比于原始的DiT模型，質量分別提升了19.67%和4.88%，并超越了Gen3和Sora等其他對比模型。這表明VideoJAM的改進并非簡單的參數堆砌，而是算法上的實質性突破。

3. VideoJAM的核心技術：聯合外觀-表示和內部引導機制

VideoJAM的成功秘訣在于其獨特的兩階段設計：訓練階段的“聯合外觀-表示”和推理階段的“內部引導機制”。

在訓練階段，VideoJAM引入了額外的預測任務，并通過添加輸入和輸出兩個線性投影層，將外觀特征和特征（以光流形式表示）融合成一個聯合的潛在表示。模型同時學習預測視頻的外觀和，并通過光流的RGB表示簡化了信息的處理，提升了模型的兼容性。

在推理階段，VideoJAM采用了“內部引導機制”，利用模型自身預測的信息來動態調整生成過程。該機制將生成過程分為粗略階段和細化階段，分別關注大范圍連貫性和細節優化，從而確保生成視頻的一致性。

4. 結論

VideoJAM通過巧妙的訓練策略和推理機制，在視頻生成領域的一致性問題上取得了突破性進展。其出色的性能和高效的實現方式，為未來視頻生成技術的進一步發展提供了新的方向。一些網友甚至認為，VideoJAM生成的視頻在第一眼看上去就和真實視頻無異，未來或許很快就能達到以假亂真的程度。

聯系作者

文章來源：量子位
作者微信：
作者簡介：追蹤人工智能新趨勢，關注科技行業新突破

閱讀原文

# AIGC動態 # DiT模型 # 雙人舞 # 同步運動 # 視頻生成框架 # 運動一致性

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

Meta新視頻生成框架拿捏倒立雜技，雙人舞也能完美同步！一致性暴增近20%，可無縫集成DiT模型

訓練時引入信息表示

Meta GenAI團隊的VideoJAM：視頻生成一致性新突破

1. VideoJAM的驚艷效果

2. 性能提升顯著超越現有模型

3. VideoJAM的核心技術：聯合外觀-表示和內部引導機制

4. 結論

聯系作者

AI意識更進一步！谷歌DeepMind等：LLM不僅能感受痛苦，還能趨利避害

飛書接入DeepSeek-R1后，用一次頂一萬次，而且再也不「服務器繁忙」了

相關文章

暫無評論

ChatGPT

玩虛擬模特？