在沒有任何訓練或優化的情況下,生成高質量、時序一致的重打光視頻。
原標題:視頻版IC-Light來了!Light-A-Video提出漸進式光照融合,免訓練一鍵視頻重打光
文章來源:機器之心
內容字數:4197字
Light-A-Video:無需訓練的視頻重打光技術突破
機器之心AIxiv專欄報道了上海交通大學、中國科學技術大學和上海人工智能實驗室聯合研發的Light-A-Video技術,該技術實現了無需訓練的視頻重打光,解決了傳統方法訓練成本高和數據稀缺的難題。
1. 技術核心:零樣本視頻重打光
Light-A-Video 利用預訓練的圖像重打光模型(如IC-Light)和視頻擴散模型(如AnimateDiff和CogVideoX),結合創新的Consistent Light Attention (CLA)模塊和Progressive Light Fusion (PLF)策略,實現了對視頻序列的零樣本光照控制。無需任何訓練,即可生成高質量、時序一致的重打光視頻。
2. 關鍵模塊:CLA和PLF
CLA模塊通過增強跨幀交互,穩定背景光源的生成,減少閃爍問題。它采用雙重注意力融合策略,保留原始幀的高頻細節,并通過時間維度的平均處理減少光照源的高頻抖動。
PLF策略基于光傳輸理論的光照線性融合特性,通過逐步混合重打光外觀和原始視頻外觀,確保時間連貫性。在視頻擴散模型的去噪過程中,PLF逐步引導視頻向目標光照方向過渡,實現平滑的光照過渡。
3. Light-A-Video的整體架構
Light-A-Video的架構包含以下步驟:1. 利用視頻擴散模型對原始視頻加噪;2. 利用IC-Light進行逐幀重打光,并使用CLA模塊穩定背景光源;3. 使用PLF策略逐步融合重打光目標和原始視頻細節,最終生成時序穩定、光照一致的重打光視頻。
4. 實驗結果與優勢
在DAVIS和Pixabay數據集上的實驗結果表明,Light-A-Video在多個評估指標上優于現有方法,尤其在動作保留方面表現出色。此外,它支持對完整視頻或僅前景序列進行重打光,并能生成與文字描述相符的背景,兼容多種視頻生成框架。
5. 未來展望
未來研究將關注動態光照條件下的處理,進一步提升視頻重打光的靈活性與適應性,擴展其應用范圍。
6. 總結
Light-A-Video 作為首個無需訓練的視頻重打光模型,其高效性、穩定性和廣泛的適用性,為視頻編輯領域帶來了突破性的進展,為視頻內容創作提供了更多可能性。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺