Perception-as-Control

Perception-as-Control – 阿里通義實驗室推出的圖像動畫框架

Perception-as-Control是什么

Perception-as-Control是阿里巴巴通義實驗室推出的一種先進圖像動畫框架，旨在根據用戶的需求實現對的精細控制。該框架通過構建3D感知表示，將相機和物體的轉化為直觀且一致的視覺效果，利用感知結果作為控制信號，支持多種與相關的視頻合成任務。Perception-as-Control采用基于U-Net架構的擴散模型，結合參考圖像的外觀信息與控制信號，生成可控的圖像動畫。此外，該框架實施了三階段訓練策略，以平衡相機與物體的控制，展現出卓越的表現。

Perception-as-Control的主要功能

細致的協同控制：實現相機與物體的協同控制，使用戶能夠以細致的方式調整動畫中的各個元素，從而精準地操控場景中的物體及相機視角的變化。
多樣化的相關視頻合成任務：支持多種相關的視頻合成任務，包括圖像基礎的生成、視頻克隆、轉移及編輯。
- 生成：根據用戶提供的參考圖像和2D軌跡生成動畫。
- 克隆：復刻源視頻中的相機和物體。
- 轉移：將源視頻中的局部遷移到參考圖像中不同位置和大小的對象上。
- 編輯：用戶提供分割掩碼，編輯掩碼內的。
3D感知表示：通過構建3D感知表示，將復雜的3D場景簡化為關鍵對象部分（以單位球表示）和世界包絡，實現直觀且一致的視覺效果。

Perception-as-Control的技術原理

3D感知表示：將3D場景簡化為關鍵對象部分（以單位球表示）和世界包絡，利用3D點跟蹤和視覺里程計技術捕捉局部物體與全局相機。
網絡架構：基于去噪U-Net架構，采用兩個輕量級編碼器分別編碼相機和物體的控制信號，避免RGB級別的干擾，并通過融合模塊合并編碼信號。
參考圖像注入：ReferenceNet將參考圖像的外觀信息注入生成過程，確保生成的視頻保留參考圖像的特定外觀。
三階段訓練策略：
- 第一階段：僅訓練相機編碼器，處理只包含相機的視頻剪輯。
- 第二階段：引入物體編碼器和融合模塊，處理包含相機和物體的視頻剪輯。
- 第三階段：基于稀疏單位球實現精細的物體控制，自適應確定每個渲染點的控制范圍。
擴散模型：利用圖像擴散概率模型的基本原理，采用去噪U-Net架構生成視頻，優化目標為最小化預測噪聲與實際噪聲之間的差異，條件輸入包括參考圖像和控制信號。