MirrorMe

MirrorMe – 阿里通義推出的音頻驅動肖像動畫框架

MirrorMe，由阿里通義實驗室傾力打造，是一款革新性的實時、高保真音頻驅動肖像動畫框架。它基于LTX視頻模型，融合了身份注入機制、音頻驅動控制模塊和漸進式訓練策略三大核心創新，旨在解決實時生成高質量、時間一致動畫視頻的難題。在EMTD基準測試中，MirrorMe榮登榜首，以其出色的圖像保真度、唇形同步精度和時間穩定性，以及高效的推理速度，為電商直播等應用場景提供了強有力的技術支持。

MirrorMe：開啟虛擬形象新紀元

您是否曾夢想過，只需一段音頻，就能讓虛擬形象栩栩如生？現在，MirrorMe將夢想變為現實。這款由阿里通義實驗室推出的尖端框架，能夠實時、高保真地生成受音頻驅動的肖像動畫，為您的數字生活增添無限可能。

核心功能一覽

實時動畫生成，流暢體驗：MirrorMe能夠以每秒24幀的速度，實時生成高質量的半身動畫視頻，確保流暢的互動體驗。
口型同步，精準無誤：憑借先進的音頻驅動技術，MirrorMe能夠將音頻信號精準轉化為口型動作，實現高度逼真的唇形同步效果。
身份保持，個性化呈現：基于獨特的身份注入機制，MirrorMe能夠確保生成的動畫視頻在外觀上與輸入的參考圖像高度一致，保留您的獨特個性。
表情與手勢，隨心所欲：MirrorMe不僅能控制面部表情，還能基于手勢信號實現對手部動作的精準控制，讓您的虛擬形象更具表現力。

技術解析：MirrorMe的創新之道

MirrorMe的成功，離不開其背后的強大技術支撐：

LTX視頻模型：作為核心架構，LTX模型基于擴散變換器，利用時空標記化技術實現極高的壓縮比，為高效的視頻生成奠定基礎。
身份注入機制：通過3D變分自編碼器（VAE）對參考圖像進行編碼，并將編碼后的隱空間變量與帶噪隱空間變量拼接，注入身份信息，確保動畫形象與參考圖像一致。
音頻驅動控制模塊：
- 因果音頻編碼器：利用預訓練的wav2vec2模型提取幀級音頻嵌入，并通過因果音頻編碼器壓縮音頻序列，使其時間分辨率與視頻隱空間變量匹配。
- 音頻適配器：通過交叉注意力機制將音頻特征與視頻特征融合，實現音頻信號對表情和口型變化的精準驅動。
漸進式訓練策略：通過逐步訓練，先專注于面部表情映射，再擴展到半身合成，并引入面部遮罩和手部關鍵點信號，提升模型性能。
高效推理：得益于LTX模型的高效壓縮和去噪技術，MirrorMe能夠顯著提升推理速度，在消費級NVIDIA GPU上實現24FPS的實時生成。