EMO

EMO（Emote Portrait Alive）是阿里巴巴集團智能計算研究院研發的一種創新框架，它能通過單一的參考圖像和音頻輸入，生成富有表現力的面部動畫視頻。該系統的核心在于其音頻驅動的能力，能夠捕捉人類面部的細微表情變化，實現高度真實的動態展示。

EMO是什么

EMO（Emote Portrait Alive）是一個由阿里巴巴集團智能計算研究院的研究團隊開發的音頻驅動AI肖像視頻生成框架。用戶只需提供一張參考圖像和一段音頻，就能自動生成具有豐富面部表情和多樣頭部姿勢的視頻。它能夠精準捕捉人類表情的微妙變化和個體面部風格的多樣性，從而生成高度逼真且富有表現力的動畫效果。

EMO

EMO的官網入口

官方項目主頁：https://humanaigc.github.io/emote-portrait-alive/
arXiv研究論文：https://arxiv.org/abs/2402.17485
GitHub：https://github.com/HumanAIGC/EMO（模型和源碼即將開源）

EMO

EMO的主要特點

音頻驅動的視頻生成：EMO根據輸入的音頻信號（如講話或歌唱）直接生成視頻，無需依賴預錄制的片段或3D模型。
高表現力和逼真度：生成的視頻展現出極高的表現力，能夠捕捉到人類面部表情的細微變化，包括微表情和與音頻節奏相符的頭部動作。
無縫幀過渡：EMO確保視頻幀之間的轉換自然流暢，避免面部扭曲或抖動，從而提升視頻整體質量。
身份保持：借助FrameEncoding模塊，EMO在視頻生成時保持角色身份一致性，確保角色外觀與輸入的參考圖像相符。
穩定的控制機制：EMO引入速度控制器和面部區域控制器等機制，提高視頻生成過程中的穩定性，避免崩潰等問題。
靈活的視頻時長：EMO能夠根據音頻長度生成任意時長的視頻，給予用戶更大的創作空間。
跨語言和跨風格：EMO的訓練數據涵蓋多種語言和風格，包括中文和英文，能夠適應各種文化和藝術風格。

EMO的工作原理

EMO

輸入準備：用戶需提供一張參考圖像（通常為目標角色的靜態肖像）和對應的音頻輸入（如講話或歌唱）。這些輸入將成為生成視頻的基礎。
特征提取：通過ReferenceNet從參考圖像中提取特征，該網絡專注于提取輸入圖像中的詳細信息。
音頻處理：音頻輸入經過預訓練的音頻編碼器處理，以提取音頻特征，這些特征捕捉了語音的節奏、音調及發音等信息，驅動視頻中角色的面部表情和頭部動作。
擴散過程：主網絡接收多幀噪聲作為輸入，并在每個時間步驟中去噪生成連續的視頻幀。此過程涉及Reference-Attention和Audio-Attention兩個主要機制，前者保持角色身份一致性，后者調節角色動作。
時間模塊：EMO使用時間模塊處理時間維度，以調整動作速度，確保連續幀之間的連貫性和一致性。
面部定位和速度控制：面部通過編碼面部邊界框區域，確保角色動作的穩定性和可控性，而速度層則控制動作的速度和頻率。
訓練策略：EMO的訓練分為三個階段：圖像預訓練、視頻訓練和速度層集成，確保音頻對角色動作的驅動能力。
生成視頻：在推理階段，EMO利用DDIM采樣算法生成視頻片段，通過迭代去噪過程，最終生成與輸入音頻同步的肖像視頻。