AniTalker

AniTalker是一個創新的對口型視頻生成框架，由上海交通大學X-LANCE實驗室與思必馳AISpeech的研究團隊共同開發。它能夠將單張靜態人像與輸入的音頻結合，生成栩栩如生的動畫對話視頻。該框架運用了自監督學習策略，可以捕捉面部的復雜動態，包括細微的表情和頭部動作，顯著降低了對標記數據的需求。同時，AniTalker結合了擴散模型與方差適配器技術，生成多樣化且可控的面部動畫，效果接近阿里EMO和騰訊AniPortrait。

AniTalker是什么

AniTalker是一個先進的對口型視頻生成工具，旨在通過將單張靜態人臉肖像與音頻信號相結合，創造出生動的動畫對話。該框架依靠自監督學習來捕捉面部動態，展現豐富的表情變化和頭部動作。AniTalker通過通用表示和身份解耦技術，減少了對標記數據的依賴，并結合擴散模型與方差適配器，生成多樣化而可控的面部動畫，達到自然的對話效果。

AniTalker

AniTalker的主要功能

靜態肖像動畫化：AniTalker可以將任意一張靜態人臉圖像轉換為動態視頻，展現說話和表情變化。
音頻同步：該框架能夠將輸入的音頻與人物的唇動和語音節奏完美同步，實現自然流暢的對話效果。
面部動態捕捉：AniTalker不僅支持唇動同步，還能夠模擬復雜的面部表情和細微的肌肉動作。
多樣化動畫生成：通過擴散模型，AniTalker生成的面部動畫具有隨機變化，增強了生成內容的自然性和不可預測性。
實時面部動畫控制：用戶可以通過控制信號實時調整動畫生成，包括頭部姿勢、面部表情和眼睛等。
語音驅動的動畫生成：該框架支持直接使用語音信號生成動畫，無需額外的視頻輸入。
長視頻連續生成：AniTalker可以持續生成長時間的動畫視頻，適用于對話或演講等場景。

AniTalker

AniTalker的官網入口

官方項目主頁：https://x-lance.github.io/AniTalker/
GitHub源碼庫：https://github.com/X-LANCE/AniTalker
arXiv研究論文：https://arxiv.org/abs/2405.03121

AniTalker的工作原理

AniTalker

表示學習：AniTalker采用自監督學習方法訓練編碼器，捕捉面部動態。這一過程涉及從視頻中提取源圖像與目標圖像，通過重建目標圖像來學習信息。
身份與解耦：為確保表示不包含身份信息，AniTalker利用度量學習和互信息最小化技術。度量學習幫助模型區分不同個體的身份特征，而互信息最小化確保編碼器專注于而非身份。
分層聚合層（HAL）：引入HAL（Hierarchical Aggregation Layer），增強編碼器對不同尺度變化的理解能力，通過平均池化層和加權和層整合來自圖像編碼器不同階段的信息。
生成：訓練完成后，AniTalker能夠基于用戶控制的信號生成表示，包括視頻驅動和語音驅動兩種管道。
- 視頻驅動管道：使用驅動者的視頻序列為源圖像生成動畫，精確復制驅動的姿勢和表情。
- 語音驅動管道：與視頻驅動不同，語音驅動方法依賴語音信號或其他控制信號生成視頻，實現與輸入音頻的同步。
擴散模型和方差適配器：在語音驅動方法中，AniTalker使用擴散模型生成潛在序列，并通過方差適配器引入屬性操作，產生多樣化和可控的面部動畫。
渲染模塊：最后，利用圖像渲染器根據生成的潛在序列逐幀渲染最終動畫視頻。
訓練和優化：AniTalker的訓練過程包括多個損失函數，如重建損失、感知損失、對抗損失、互信息損失和身份度量學習損失，以優化模型性能。
控制屬性特征：AniTalker允許用戶調整頭部姿態和相機參數，如頭部位置和面部大小，以生成特定屬性的動畫。