MTVCrafter

MTVCrafter – 中科院聯合中國電信等機構推出的人像動畫生成框架

MTVCrafter

MTVCrafter是什么

MTVCrafter是由中國科學院深圳先進技術研究院計算機視覺與模式識別實驗室與中國電信人工智能研究所等多個機構聯合開發的一款創新型人類圖像動畫生成框架。它基于原始的3D序列實現高質量的動畫制作。MTVCrafter采用4D標記化（4DMoT）技術，能夠直接對3D數據進行建模，克服了傳統方法中對2D渲染姿態圖像的依賴，提供了更為先進的解決方案。此外，該框架引入了感知視頻擴散Transformer（MV-DiT），通過獨特的4D注意力機制和位置編碼，有效利用4D標記作為動畫生成的上下文。經過在TikTok基準測試中的表現，MTVCrafter取得了6.98的FID-VID成績，領先于第二名方法達65%，展現出卓越的泛化能力和魯棒性。

MTVCrafter的主要功能

高質量動畫生成：能夠直接對3D序列進行建模，創造出自然流暢且高質量的人類動畫視頻。
強大的泛化能力：支持未見和角色的泛化，包括單個及多個角色、全身及半身角色，適應多種風格（如動漫、像素藝術、水墨畫及寫實風格）。
精確的控制：通過4D標記化和注意力機制實現對序列的精確掌控，確保動畫的準確性和一致性。
身份一致性保持：在動畫生成的過程中，確保參考圖像的身份特征不變，避免身份漂移或失真。

MTVCrafter的技術原理

4D標記化器（4DMoT）：4DMoT采用編碼器-解碼器結構，通過2D卷積和殘差塊處理時間（幀）和空間（關節）維度的數據，利用向量量化器將連續的特征映射到離散的標記空間，從而在統一的空間中表示，便于后續的動畫生成。
感知視頻擴散Transformer（MV-DiT）：設計了4D注意力機制，將4D標記與視覺標記（如視頻幀）結合。基于4D旋轉位置編碼（RoPE），恢復由于標記化和展平而丟失的時空關系。引入了感知的分類器引導，使用無條件和條件生成的聯合表示，以提升生成質量和泛化能力。通過簡單而有效的重復和拼接策略，將參考圖像與噪聲視頻潛變量結合，確保身份一致性。