利用「歷史幀」成為關鍵。
原標題:千幀長視頻時代到來!MIT全新擴散算法讓任意模型突破時長極限
文章來源:機器之心
內容字數:5364字
MIT團隊突破長視頻生成瓶頸:Diffusion Forcing Transformer (DFoT) 算法詳解
機器之心AIxiv專欄報道了麻省理工學院團隊一項突破性研究,該研究提出了一種名為Diffusion Forcing Transformer (DFoT) 的全新算法,顯著提升了視頻擴散模型的生成長度和質量。這項工作解決了長視頻生成這一長期困擾視頻擴散模型的難題,生成的視頻長度可達近千幀,是之前模型的近50倍。
1. 長視頻生成的挑戰與DFoT的創新
現有的視頻擴散模型通常只利用第一幀進行無分類器引導(CFG),忽略了其他歷史幀的重要信息。MIT團隊的研究發現,歷史信息是提升視頻生成質量的關鍵。DFoT算法巧妙地解決了這個問題。它在不改變原有架構的情況下,通過引入“噪聲掩碼”機制,使得模型能夠靈活地利用不同長度、不同子集甚至不同頻率域的歷史信息進行去噪預測。這使得DFoT能夠在各種場景下,例如圖生視頻或延長已有視頻,都展現出優異的性能。
2. DFoT算法的核心機制:噪聲掩碼
DFoT的核心在于其“噪聲掩碼”機制。該機制借鑒了Diffusion Forcing的概念,通過控制每一幀的噪聲強度來實現對歷史信息的靈活利用。無噪聲的幀被直接作為條件信息,而高噪聲的幀則被忽略。這種方法使得模型能夠根據需要選擇不同長度的歷史信息作為條件,從而實現了對各種歷史信息的靈活利用。 這種設計也保證了現有模型可以方便地微調成DFoT模型,Adobe公司已經在其視頻大模型CausVid上驗證了Diffusion Forcing的微調效果。
3. 歷史引導算法:提升質量與魯棒性
基于DFoT的靈活性和對歷史信息的有效利用,研究團隊提出了一系列“歷史引導”算法。這些算法擴展了無分類器引導的概念,通過組合有條件模型和無條件模型,以及加權去噪組合多重不同歷史條件,進一步提升了視頻生成質量、長度、魯棒性和可組合性。例如,Temporal History Guidance增強了魯棒性,Fractional History Guidance則提升了動作幅度。
4. 實驗結果:顯著超越現有模型
在Kinetics 600和RealEstate10K數據集上的實驗結果表明,DFoT算法顯著優于其他同架構的視頻擴散算法,甚至與谷歌的閉源大模型性能相當。在RealEstate10K數據集上,DFoT能夠從單圖生成近千幀視頻,而之前的模型最多只能生成幾十幀。這充分展現了DFoT算法的強大性能。
5. 開源與未來展望
該研究成果已開源,并在Huggingface平臺上提供了在線體驗。 DFoT的出現,為長視頻生成領域帶來了新的突破,為未來的視頻生成技術發展提供了新的方向。 未來研究方向包括進一步提升生成視頻的質量和效率,以及探索DFoT在其他領域的應用。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺