復旦聯合微軟等機構推出的端到端身份一致性視頻擴散框架

產品名稱：StableAnimator
產品簡介：StableAnimator是復旦大學、微軟亞洲研究院、虎牙公司和卡內基梅隆大學共同推出的端到端高質量身份保持視頻擴散框架。StableAnimator能根據一張參考圖像和一系列姿態，無需任何后處理工具，直接合成高保真度且保持人物身份一致性的視頻。
詳細介紹：

StableAnimator是什么

StableAnimator是復旦大學、微軟亞洲研究院、虎牙公司和卡內基梅隆大學共同推出的端到端高質量身份保持視頻擴散框架。StableAnimator能根據一張參考圖像和一系列姿態，無需任何后處理工具，直接合成高保真度且保持人物身份一致性的視頻。StableAnimator框架基于計算圖像和面部嵌入、用全局內容感知面部編碼器優化面部信息、引入分布感知ID適配器減少時間層干擾，在推理階段采用基于Hamilton-Jacobi-Bellman方程的優化方法提升面部質量。

StableAnimator的主要功能

身份保持的視頻合成：StableAnimator能根據提供的參考圖像和姿態序列，合成保持人物身份一致性的視頻內容。
無需后處理：與傳統的動畫模型不同，StableAnimator無需依賴任何后處理工具，如面部交換工具或面部恢復模型，即可生成高質量動畫。
高保真度：框架直接生成的視頻具有高保真度，細節豐富，接近真實世界的人物動態和外觀。
端到端框架：作為一個端到端的視頻擴散框架，StableAnimator集成訓練和推理模塊，確保在整個動畫生成過程中保持身份一致性。

StableAnimator的技術原理

圖像和面部嵌入：StableAnimator使用現成的提取器分別計算圖像和面部嵌入，為后續的身份保持提供基礎特征。
全局內容感知面部編碼器：基于與圖像嵌入的交互，面部編碼器能進一步優化面部特征，增強模型對參考圖像全局布局的感知能力。
分布感知ID適配器：這一新穎組件能防止由于時間層引起的干擾，同時基于對齊操作保留身份信息，確保視頻幀間的身份一致性。
Hamilton-Jacobi-Bellman (HJB) 方程優化：在推理階段，基于HJB方程進行面部優化，進一步增強面部質量。基于與擴散去噪過程相結合，用優化路徑引導模型朝著最佳的身份一致性方向發展。
集成到擴散去噪過程：HJB方程的解決方案被集成到擴散去噪過程中，讓去噪路徑受到約束，有利于身份信息的保持。
多路徑處理：參考圖像基于三個路徑處理：VAE編碼、CLIP圖像編碼和Arcface面部編碼，將信息用在調制合成外觀和確保身份一致性。