本文提出了一種用于協同控制的精細控制可控圖像動畫框架。
原標題:應用(生成&克隆&遷移&編輯)全搞定!阿里通義提出動畫框架Perception-as-Control
文章來源:智猩猩GenAI
內容字數:11562字
Perception-as-Control: 精細化可控圖像動畫框架
本文介紹了一種名為Perception-as-Control的圖像動畫框架,該框架能夠實現對攝像機和物體的精細化協同控制,突破了現有方法在控制粒度和三維感知方面的不足,從而支持多種相關的應用,例如生成、克隆、遷移和編輯。
1. 現有方法的挑戰
現有的圖像動畫方法在控制攝像機和物體時面臨以下挑戰:
協同控制難題:難以實現攝像機和物體的協同控制,容易產生沖突。
控制粒度不足:缺乏精細化的控制能力,難以滿足復雜的動畫需求。
三維感知不足:表示通常缺乏3D感知,導致局部區域在同時控制攝像機和物體時出現控制沖突。
2. Perception-as-Control框架
為了解決上述問題,本文提出了Perception-as-Control框架,其核心思想是利用3D感知表示來促進精細化的協同控制。該表示能夠被修改和感知,從而將用戶意圖轉化為空間對齊的控制信號。
該框架主要包含以下幾個關鍵技術:
3D感知表示:通過重構3D場景,使用單位球體簡化動態部分和靜態部分,生成反映和空間關系的感知結果。靜態部分用世界包絡體表示,動態部分用單位球體表示。
輕量化雙編碼器:分別對攝像機和物體的控制信號進行編碼,確保控制信號與參考圖像對齊,提高控制的靈活性。
擴散模型:利用基于U-Net的架構,將外觀信息與信息結合,用于生成目標動畫。采用三階段訓練策略,平衡相機和物體控制,并實現精細化物體控制。
數據管道與訓練策略:自動化處理真實視頻數據,采用分階段訓練策略,支持多種相關任務。
3. 框架效果
Perception-as-Control框架取得了顯著的效果:
精細化控制:能夠實現攝像機和物體的協同控制,避免控制沖突。
視覺一致性:通過3D感知表示,確保信號與生成的動畫幀空間對齊,提升動畫質量。
任務統一性:支持各種相關的視頻生成任務,具備高度的靈活性和適應性。
性能優越:實驗結果表明,該框架在多個任務中均優于現有方法,實現更精確的控制與更高質量的動畫效果。
4. 實驗與應用
實驗使用了RealEstate10K和WebVid10M數據集進行訓練。結果表明,Perception-as-Control能夠有效地進行僅相機控制、僅物體控制以及協同控制。此外,該框架還能夠應用于生成、克隆、遷移和編輯等多種任務。
5. 結論
Perception-as-Control框架提出了一種用于協同控制的精細化可控圖像動畫方法,通過3D感知表示實現了對攝像機和物體的精確且靈活的控制,并支持多種相關的應用,為圖像動畫領域帶來了顯著的進步。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,專注于生成式人工智能。