千幀長視頻時代到來！MIT全新擴散算法讓任意模型突破時長極限

利用「歷史幀」成為關鍵。

原標題：千幀長視頻時代到來！MIT全新擴散算法讓任意模型突破時長極限
文章來源：機器之心
內容字數：5364字

MIT團隊突破長視頻生成瓶頸：Diffusion Forcing Transformer (DFoT) 算法詳解

機器之心AIxiv專欄報道了麻省理工學院團隊一項突破性研究，該研究提出了一種名為Diffusion Forcing Transformer (DFoT) 的全新算法，顯著提升了視頻擴散模型的生成長度和質量。這項工作解決了長視頻生成這一長期困擾視頻擴散模型的難題，生成的視頻長度可達近千幀，是之前模型的近50倍。

1. 長視頻生成的挑戰與DFoT的創新

現有的視頻擴散模型通常只利用第一幀進行無分類器引導(CFG)，忽略了其他歷史幀的重要信息。MIT團隊的研究發現，歷史信息是提升視頻生成質量的關鍵。DFoT算法巧妙地解決了這個問題。它在不改變原有架構的情況下，通過引入“噪聲掩碼”機制，使得模型能夠靈活地利用不同長度、不同子集甚至不同頻率域的歷史信息進行去噪預測。這使得DFoT能夠在各種場景下，例如圖生視頻或延長已有視頻，都展現出優異的性能。

2. DFoT算法的核心機制：噪聲掩碼

DFoT的核心在于其“噪聲掩碼”機制。該機制借鑒了Diffusion Forcing的概念，通過控制每一幀的噪聲強度來實現對歷史信息的靈活利用。無噪聲的幀被直接作為條件信息，而高噪聲的幀則被忽略。這種方法使得模型能夠根據需要選擇不同長度的歷史信息作為條件，從而實現了對各種歷史信息的靈活利用。這種設計也保證了現有模型可以方便地微調成DFoT模型，Adobe公司已經在其視頻大模型CausVid上驗證了Diffusion Forcing的微調效果。

3. 歷史引導算法：提升質量與魯棒性

基于DFoT的靈活性和對歷史信息的有效利用，研究團隊提出了一系列“歷史引導”算法。這些算法擴展了無分類器引導的概念，通過組合有條件模型和無條件模型，以及加權去噪組合多重不同歷史條件，進一步提升了視頻生成質量、長度、魯棒性和可組合性。例如，Temporal History Guidance增強了魯棒性，Fractional History Guidance則提升了動作幅度。

4. 實驗結果：顯著超越現有模型

在Kinetics 600和RealEstate10K數據集上的實驗結果表明，DFoT算法顯著優于其他同架構的視頻擴散算法，甚至與谷歌的閉源大模型性能相當。在RealEstate10K數據集上，DFoT能夠從單圖生成近千幀視頻，而之前的模型最多只能生成幾十幀。這充分展現了DFoT算法的強大性能。

5. 開源與未來展望

該研究成果已開源，并在Huggingface平臺上提供了在線體驗。 DFoT的出現，為長視頻生成領域帶來了新的突破，為未來的視頻生成技術發展提供了新的方向。未來研究方向包括進一步提升生成視頻的質量和效率，以及探索DFoT在其他領域的應用。

聯系作者

文章來源：機器之心
作者微信：
作者簡介：專業的人工智能媒體和產業服務平臺

閱讀原文

# AIGC動態 # MIT擴散算法 # 千幀視頻生成 # 視頻時長極限突破 # 超長視頻AI生成 # 長視頻擴散模型

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

千幀長視頻時代到來！MIT全新擴散算法讓任意模型突破時長極限

利用「歷史幀」成為關鍵。

MIT團隊突破長視頻生成瓶頸：Diffusion Forcing Transformer (DFoT) 算法詳解

1. 長視頻生成的挑戰與DFoT的創新

2. DFoT算法的核心機制：噪聲掩碼

3. 歷史引導算法：提升質量與魯棒性

4. 實驗結果：顯著超越現有模型

5. 開源與未來展望

聯系作者

多模態大模型對齊新范式，10個評估維度全面提升，快手&中科院&南大打破瓶頸

何愷明ResNet級神作，分形生成模型計算效率狂飆4000倍！清華校友一作

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

千幀長視頻時代到來！MIT全新擴散算法讓任意模型突破時長極限

利用「歷史幀」成為關鍵。

MIT團隊突破長視頻生成瓶頸：Diffusion Forcing Transformer (DFoT) 算法詳解

1. 長視頻生成的挑戰與DFoT的創新

2. DFoT算法的核心機制：噪聲掩碼

3. 歷史引導算法：提升質量與魯棒性

4. 實驗結果：顯著超越現有模型

5. 開源與未來展望

聯系作者

多模態大模型對齊新范式，10個評估維度全面提升，快手&中科院&南大打破瓶頸

何愷明ResNet級神作，分形生成模型計算效率狂飆4000倍！清華校友一作

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

利用「歷史幀」成為關鍵。

何愷明ResNet級神作，分形生成模型計算效率狂飆4000倍！清華校友一作