訓練時引入信息表示
原標題:Meta新視頻生成框架拿捏倒立雜技,雙人舞也能完美同步!一致性暴增近20%,可無縫集成DiT模型
文章來源:量子位
內容字數:3391字
Meta GenAI團隊的VideoJAM:視頻生成一致性新突破
Meta GenAI團隊近日發布了全新的視頻生成框架VideoJAM,該框架在處理視頻中的一致性問題上取得了顯著突破,其動態效果甚至超越了Sora和Gen3等現有主流模型。VideoJAM基于Diffusion Model(DiT)架構,但通過巧妙的設計,顯著提升了視頻生成中的質量,即使是復雜且快速的場景,也能呈現出高度逼真和物理一致的效果。
1. VideoJAM的驚艷效果
VideoJAM在各種復雜場景下的表現令人印象深刻:無論是快速變化的舞蹈動作、復雜的倒立動作,還是細微的蠟燭熄滅過程(包括火苗晃動和白煙),甚至是書法筆跡與紙上字跡的同步,以及史萊姆的形變和粘連效果,都展現出極高的真實感和物理準確性。 甚至像雜技演員拋接三個球這樣的高難度動作,其拋物線軌跡也得到了精準的還原。這些例子充分展示了VideoJAM在一致性方面的巨大進步。
2. 性能提升顯著超越現有模型
在4B和30B規模的DiT模型上進行的評估表明,VideoJAM顯著提升了質量。相比于原始的DiT模型,質量分別提升了19.67%和4.88%,并超越了Gen3和Sora等其他對比模型。這表明VideoJAM的改進并非簡單的參數堆砌,而是算法上的實質性突破。
3. VideoJAM的核心技術:聯合外觀-表示和內部引導機制
VideoJAM的成功秘訣在于其獨特的兩階段設計:訓練階段的“聯合外觀-表示”和推理階段的“內部引導機制”。
在訓練階段,VideoJAM引入了額外的預測任務,并通過添加輸入和輸出兩個線性投影層,將外觀特征和特征(以光流形式表示)融合成一個聯合的潛在表示。模型同時學習預測視頻的外觀和,并通過光流的RGB表示簡化了信息的處理,提升了模型的兼容性。
在推理階段,VideoJAM采用了“內部引導機制”,利用模型自身預測的信息來動態調整生成過程。 該機制將生成過程分為粗略階段和細化階段,分別關注大范圍連貫性和細節優化,從而確保生成視頻的一致性。
4. 結論
VideoJAM通過巧妙的訓練策略和推理機制,在視頻生成領域的一致性問題上取得了突破性進展。其出色的性能和高效的實現方式,為未來視頻生成技術的進一步發展提供了新的方向。 一些網友甚至認為,VideoJAM生成的視頻在第一眼看上去就和真實視頻無異,未來或許很快就能達到以假亂真的程度。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破