FantasyID – 阿里聯合北郵大學推出的身份保持視頻生成框架
FantasyID是什么
FantasyID 是由阿里巴巴集團與北京郵電大合推出的創新身份保持視頻生成框架(IPT2V)。該系統基于增強的人臉知識,旨在生成高質量且身份一致的視頻。FantasyID運用了擴散變換器(Diffusion Transformers)技術,并結合3D面部幾何先驗知識,以確保在視頻合成過程中面部結構的穩定性和合理性。此外,FantasyID采用了多視角人臉增強策略,避免了簡單復制參考人臉的現象,提升了面部表情和頭部姿態的動態變化。通過可學習的分層感知注入機制,2D和3D特征被選擇性地融入到每一層的擴散模型中,從而實現身份保留與動態表現之間的平衡。
FantasyID的主要功能
- 身份保留:確保生成的視頻中人物的面部特征與輸入的參考圖像高度一致,即使在復雜的動作和表情變化中,身份相似性依然保持。
- 動態增強:豐富面部表情及頭部姿態的多樣性,避免生成視頻出現“復制粘貼”的現象。
- 高質量視頻生成:通過結合3D面部幾何信息和2D視覺特征,生成結構穩定且細節豐富的視頻,同時保持視頻的時空連貫性。
- 無需微調:在生成過程中,無需針對每個輸入圖像進行額外模型調整,從而實現高效、靈活的身份保留視頻生成,適應大規模應用需求。
FantasyID的技術原理
- 3D面部幾何先驗:基于DECA框架,從輸入的人臉圖像中提取3D面部結構(如形狀點云),為視頻生成提供穩定的幾何約束,確保動態變化中的面部結構穩定性。
- 多視角人臉增強:構建多角度人臉集合,從不同視角采集人臉圖像,以增強模型對2D面部外觀特征的理解,提升動態表現,避免生成視頻中的單一性。
- 特征融合:通過融合變換器將提取的2D視覺特征與3D幾何特征結合,生成綜合面部描述符,以指導視頻生成。
- 分層感知信號注入:針對擴散變換器的層次特性,設計可學習的分層感知機制,將融合特征有選擇地注入不同層次,平衡身份保留與動態表現。
- 擴散模型:基于擴散模型的生成框架,通過逐步去噪的過程,從噪聲中重建出符合文本描述和身份特征的視頻內容。
FantasyID的項目地址
- 項目官網:https://fantasy-amap.github.io/fantasy-id/
- GitHub倉庫:https://github.com/Fantasy-AMAP/fantasy-id
- arXiv技術論文:https://arxiv.org/pdf/2502.13995
FantasyID的應用場景
- 個性化虛擬形象:通過生成與用戶身份一致的虛擬形象,應用于虛擬社交、元宇宙和游戲等領域。
- 虛擬內容創作:生成動態視頻內容,支持影視、廣告及短視頻制作,降低創作成本。
- 虛擬客服與數字人:創建自然、逼真的數字人形象,用于在線客服和智能助手,提升用戶交互體驗。
- 虛擬試妝與試衣:結合電子商務和美容行業,生成試妝或試衣的動態視頻,優化購物體驗。
- 互動式教育:生成教師或培訓師的動態視頻,用于在線課程和模擬場景,增強教學效果。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...