Perception-as-Control – 阿里通義實(shí)驗(yàn)室推出的圖像動畫框架
Perception-as-Control是什么
Perception-as-Control是阿里巴巴通義實(shí)驗(yàn)室推出的一種先進(jìn)圖像動畫框架,旨在根據(jù)用戶的需求實(shí)現(xiàn)對的精細(xì)控制。該框架通過構(gòu)建3D感知表示,將相機(jī)和物體的轉(zhuǎn)化為直觀且一致的視覺效果,利用感知結(jié)果作為控制信號,支持多種與相關(guān)的視頻合成任務(wù)。Perception-as-Control采用基于U-Net架構(gòu)的擴(kuò)散模型,結(jié)合參考圖像的外觀信息與控制信號,生成可控的圖像動畫。此外,該框架實(shí)施了三階段訓(xùn)練策略,以平衡相機(jī)與物體的控制,展現(xiàn)出卓越的表現(xiàn)。
Perception-as-Control的主要功能
- 細(xì)致的協(xié)同控制:實(shí)現(xiàn)相機(jī)與物體的協(xié)同控制,使用戶能夠以細(xì)致的方式調(diào)整動畫中的各個(gè)元素,從而精準(zhǔn)地操控場景中的物體及相機(jī)視角的變化。
- 多樣化的相關(guān)視頻合成任務(wù):支持多種相關(guān)的視頻合成任務(wù),包括圖像基礎(chǔ)的生成、視頻克隆、轉(zhuǎn)移及編輯。
- 生成:根據(jù)用戶提供的參考圖像和2D軌跡生成動畫。
- 克隆:復(fù)刻源視頻中的相機(jī)和物體。
- 轉(zhuǎn)移:將源視頻中的局部遷移到參考圖像中不同位置和大小的對象上。
- 編輯:用戶提供分割掩碼,編輯掩碼內(nèi)的。
- 3D感知表示:通過構(gòu)建3D感知表示,將復(fù)雜的3D場景簡化為關(guān)鍵對象部分(以單位球表示)和世界包絡(luò),實(shí)現(xiàn)直觀且一致的視覺效果。
Perception-as-Control的技術(shù)原理
- 3D感知表示:將3D場景簡化為關(guān)鍵對象部分(以單位球表示)和世界包絡(luò),利用3D點(diǎn)跟蹤和視覺里程計(jì)技術(shù)捕捉局部物體與全局相機(jī)。
- 網(wǎng)絡(luò)架構(gòu):基于去噪U(xiǎn)-Net架構(gòu),采用兩個(gè)輕量級編碼器分別編碼相機(jī)和物體的控制信號,避免RGB級別的干擾,并通過融合模塊合并編碼信號。
- 參考圖像注入:ReferenceNet將參考圖像的外觀信息注入生成過程,確保生成的視頻保留參考圖像的特定外觀。
- 三階段訓(xùn)練策略:
- 第一階段:僅訓(xùn)練相機(jī)編碼器,處理只包含相機(jī)的視頻剪輯。
- 第二階段:引入物體編碼器和融合模塊,處理包含相機(jī)和物體的視頻剪輯。
- 第三階段:基于稀疏單位球?qū)崿F(xiàn)精細(xì)的物體控制,自適應(yīng)確定每個(gè)渲染點(diǎn)的控制范圍。
- 擴(kuò)散模型:利用圖像擴(kuò)散概率模型的基本原理,采用去噪U(xiǎn)-Net架構(gòu)生成視頻,優(yōu)化目標(biāo)為最小化預(yù)測噪聲與實(shí)際噪聲之間的差異,條件輸入包括參考圖像和控制信號。
Perception-as-Control的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):https://chen-yingjie.github.io/projects/Perception-as-Control/
- GitHub倉庫:https://github.com/chen-yingjie/Perception-as-Control
- arXiv技術(shù)論文:https://arxiv.org/pdf/2501.05020
Perception-as-Control的應(yīng)用場景
- 電影與視頻特效:生成具有特定的動畫場景,模仿現(xiàn)有視頻中的復(fù)雜,或?qū)⒁粋€(gè)角色的轉(zhuǎn)移到另一個(gè)角色上。
- 游戲開發(fā):為游戲角色和物體創(chuàng)造自然且可控的動畫,提升游戲的沉浸感與動態(tài)效果。
- 虛擬現(xiàn)實(shí)(VR)和增強(qiáng)現(xiàn)實(shí)(AR):在VR環(huán)境中生成實(shí)時(shí)動畫反饋,增強(qiáng)用戶的互動體驗(yàn);在AR應(yīng)用中將虛擬物體動畫與現(xiàn)實(shí)場景相結(jié)合。
- 廣告與營銷:生成引人注目的動態(tài)廣告和品牌推廣動畫,提升品牌形象和記憶點(diǎn)。
- 教育與培訓(xùn):生成科學(xué)實(shí)驗(yàn)動畫和技能培訓(xùn)模擬動畫,幫助學(xué)生和學(xué)員更好地理解和掌握知識與技能。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章

暫無評論...