Perception-as-Control – 阿里通義實驗室推出的圖像動畫框架
Perception-as-Control是什么
Perception-as-Control是阿里巴巴通義實驗室推出的一種先進圖像動畫框架,旨在根據用戶的需求實現對的精細控制。該框架通過構建3D感知表示,將相機和物體的轉化為直觀且一致的視覺效果,利用感知結果作為控制信號,支持多種與相關的視頻合成任務。Perception-as-Control采用基于U-Net架構的擴散模型,結合參考圖像的外觀信息與控制信號,生成可控的圖像動畫。此外,該框架實施了三階段訓練策略,以平衡相機與物體的控制,展現出卓越的表現。
Perception-as-Control的主要功能
- 細致的協同控制:實現相機與物體的協同控制,使用戶能夠以細致的方式調整動畫中的各個元素,從而精準地操控場景中的物體及相機視角的變化。
- 多樣化的相關視頻合成任務:支持多種相關的視頻合成任務,包括圖像基礎的生成、視頻克隆、轉移及編輯。
- 生成:根據用戶提供的參考圖像和2D軌跡生成動畫。
- 克隆:復刻源視頻中的相機和物體。
- 轉移:將源視頻中的局部遷移到參考圖像中不同位置和大小的對象上。
- 編輯:用戶提供分割掩碼,編輯掩碼內的。
- 3D感知表示:通過構建3D感知表示,將復雜的3D場景簡化為關鍵對象部分(以單位球表示)和世界包絡,實現直觀且一致的視覺效果。
Perception-as-Control的技術原理
- 3D感知表示:將3D場景簡化為關鍵對象部分(以單位球表示)和世界包絡,利用3D點跟蹤和視覺里程計技術捕捉局部物體與全局相機。
- 網絡架構:基于去噪U-Net架構,采用兩個輕量級編碼器分別編碼相機和物體的控制信號,避免RGB級別的干擾,并通過融合模塊合并編碼信號。
- 參考圖像注入:ReferenceNet將參考圖像的外觀信息注入生成過程,確保生成的視頻保留參考圖像的特定外觀。
- 三階段訓練策略:
- 第一階段:僅訓練相機編碼器,處理只包含相機的視頻剪輯。
- 第二階段:引入物體編碼器和融合模塊,處理包含相機和物體的視頻剪輯。
- 第三階段:基于稀疏單位球實現精細的物體控制,自適應確定每個渲染點的控制范圍。
- 擴散模型:利用圖像擴散概率模型的基本原理,采用去噪U-Net架構生成視頻,優化目標為最小化預測噪聲與實際噪聲之間的差異,條件輸入包括參考圖像和控制信號。
Perception-as-Control的項目地址
- 項目官網:https://chen-yingjie.github.io/projects/Perception-as-Control/
- GitHub倉庫:https://github.com/chen-yingjie/Perception-as-Control
- arXiv技術論文:https://arxiv.org/pdf/2501.05020
Perception-as-Control的應用場景
- 電影與視頻特效:生成具有特定的動畫場景,模仿現有視頻中的復雜,或將一個角色的轉移到另一個角色上。
- 游戲開發:為游戲角色和物體創造自然且可控的動畫,提升游戲的沉浸感與動態效果。
- 虛擬現實(VR)和增強現實(AR):在VR環境中生成實時動畫反饋,增強用戶的互動體驗;在AR應用中將虛擬物體動畫與現實場景相結合。
- 廣告與營銷:生成引人注目的動態廣告和品牌推廣動畫,提升品牌形象和記憶點。
- 教育與培訓:生成科學實驗動畫和技能培訓模擬動畫,幫助學生和學員更好地理解和掌握知識與技能。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...