DiTCtrl

DiTCtrl – 港中文聯合騰訊等機構推出的多提示視頻生成方法

DiTCtrl是什么

DiTCtrl是一種創新的多提示視頻生成方法，基于多模態擴散變換器（MM-DiT）架構，由香港中文大學與騰訊等機構聯合開發。該技術能夠在無需任何額外訓練的情況下，實現多個文本提示之間的高效連貫視頻生成，同時確保視頻內容和動作的協調一致。通過深入分析MM-DiT的注意力機制，DiTCtrl引入了鍵值共享和潛在混合策略，使得不同提示之間的轉換更加流暢，從而提升視頻的連貫性和自然感。在新推出的評測基準MPVBench上，DiTCtrl不僅保持了良好的計算效率，還展現出了卓越的性能，標志著多提示視頻生成技術的重要飛躍。

DiTCtrl

DiTCtrl的主要功能

多提示視頻生成：DiTCtrl能夠處理多個文本提示，生成連貫且豐富的視頻內容，特別適合展現動態和多樣化的現實場景。
無需額外訓練：與傳統視頻生成模型相比，DiTCtrl不需要額外的訓練數據或計算資源，能夠實現零樣本的多提示視頻生成。
平滑過渡：該技術支持在不同提示的視頻片段之間實現平滑的轉換，確保視頻內容的緊密銜接和視覺一致性。
精確語義控制：通過分析MM-DiT的注意力機制，DiTCtrl能夠精確控制生成視頻的內容，使其與文本提示緊密相連。

DiTCtrl的技術原理

MM-DiT架構：DiTCtrl基于多模態擴散變換器（MM-DiT）架構，將文本和視頻映射到一個統一的序列中進行注意力計算，有效處理多模態數據。
注意力機制分析：首次對MM-DiT中的3D全注意力機制進行分析，發現其與UNet類擴散模型中的交叉/自注意力模塊相似，為精確的語義控制提供了基礎。
KV共享機制：通過鍵值共享機制，DiTCtrl支持在不同提示的視頻片段之間共享注意力信息，確保關鍵對象的語義一致性。
潛在混合策略：為實現視頻片段之間的平滑過渡，DiTCtrl采用潛在混合策略，通過在相鄰視頻片段的重疊區域應用位置依賴的權重函數，確保不同語義片段之間的無縫連接。
掩碼引導的注意力融合：通過提取特定對象的注意力掩碼，DiTCtrl能夠用掩碼引導注意力融合，生成新提示的注意力特征，從而實現不同提示之間的一致性。
MPVBench基準：DiTCtrl引入了MPVBench基準，用以評估多提示視頻生成的性能，包含多種過渡類型和專門設計的評估指標。