CustomVideoX

CustomVideoX – 中科大聯合浙大等推出的個性化視頻生成框架

CustomVideoX 是一個開創性的個性化視頻生成框架，由中國科學技術大學與浙江大學等機構聯合研發。該框架能夠通過參考圖像和文本描述生成高質量的定制視頻，重新定義了個性化內容創作的可能性。基于視頻擴散變換器（Video Diffusion Transformer），CustomVideoX 采用零樣本學習方法，僅需訓練 LoRA 參數來提取參考圖像的特征，從而高效實現個性化視頻的生成。

CustomVideoX是什么

CustomVideoX 是一個創新的個性化視頻生成框架，旨在通過用戶提供的參考圖像和文本描述，生成高質量的定制視頻。該框架依托于視頻擴散變換器（Video Diffusion Transformer），并通過零樣本學習的方式，僅訓練 LoRA 參數來提取圖像特征，從而高效地實現個性化視頻的生成。CustomVideoX 的核心技術包括：3D 參考注意力機制，支持參考圖像特征與視頻幀在空間和時間維度上的直接交互；時間感知注意力偏差（TAB）策略，動態調整參考特征的影響力，增強生成視頻的時間連貫性；以及實體區域感知增強（ERAE）模塊，通過語義對齊突出關鍵實體區域，解決了傳統方法中常見的時間不一致性和質量下降的問題。

CustomVideoX

CustomVideoX的主要功能

個性化視頻生成：CustomVideoX 可以根據用戶提供的參考圖像和文本描述，生成高度一致的視頻內容，保留參考圖像中的細節特征。
高保真度的參考圖像融合：通過 3D 參考注意力機制，CustomVideoX 將參考圖像的特征與視頻幀在空間和時間維度上無縫交互，確保生成的視頻與文本描述保持一致，且每一幀都能保留參考圖像的主體特征和細節。
時間連貫性優化：CustomVideoX 采用時間感知注意力偏差（TAB）策略，動態調整參考特征在不同時間步的影響力，以優化生成視頻的時間連貫性，避免傳統方法中的跳躍或不連貫問題。
關鍵區域增強：通過實體區域感知增強（ERAE）模塊，CustomVideoX 能夠識別并增強視頻中與文本描述相關的關鍵區域。

CustomVideoX的技術原理

3D 參考注意力機制：利用 3D 因果變分自編碼器（3D Causal VAE）對參考圖像進行編碼，確保生成視頻在每一幀中都能保持參考圖像的主體特征和細節。
時間感知注意力偏差（TAB）：在擴散模型的去噪過程中，通過拋物線時間掩碼動態調整參考特征的權重，以優化生成視頻的時間連貫性和視覺質量。
實體區域感知增強（ERAE）：通過分析文本描述中關鍵實體的激活強度，識別視頻中與這些實體相關的區域，進行語義對齊的增強。
零樣本學習與 LoRA 參數訓練：通過訓練少量的 LoRA 參數提取參考圖像特征，避免傳統微調方法可能導致的性能下降，同時保留預訓練模型的完整性，降低訓練復雜度。
高質量數據集與基準測試：研究團隊構建了高質量的定制視頻數據集，并提出了 VideoBench 基準測試平臺，用于訓練和評估模型的泛化能力及性能。