音頻驅動的生成肖像說話視頻框架，保持身份一致性和表現力

產品名稱：MEMO
產品簡介：MEMO（Memory-Guided EMOtionaware diffusion）是Skywork AI、南洋理工大學和新加坡國立大學推出的音頻驅動肖像動畫框架，用在生成具有身份一致性和表現力的說話視頻。MEMO圍繞兩個核心模塊構建：記憶引導的時間模塊和情感感知音頻模塊。
詳細介紹：

MEMO是什么

MEMO（Memory-Guided EMOtionaware diffusion）是Skywork AI、南洋理工大學和新加坡國立大學推出的音頻驅動肖像動畫框架，用在生成具有身份一致性和表現力的說話視頻。MEMO圍繞兩個核心模塊構建：記憶引導的時間模塊和情感感知音頻模塊。記憶引導模塊通存儲更長期的信息增強身份一致性和平滑性，情感感知模塊用多模態注意力機制提升音頻與視頻的交互，根據音頻中的情感來細化面部表情。MEMO在多種圖像和音頻類型的說話視頻中，展現出比現有最先進方法更優秀的整體質量、音頻-唇形同步、身份一致性和表情-情感對齊。

MEMO的主要功能

音頻驅動的肖像動畫：MEMO根據輸入的音頻和參考圖像生成同步的、具有身份一致性的說話視頻。
多樣化內容生成：支持多種圖像風格（如肖像、雕塑、數字藝術）和音頻類型（如演講、唱歌、說唱）的說話視頻生成。
多語言支持：能處理包括英語、普通話、西班牙語、日語、韓語和粵語在內的多種語言的音頻輸入。
表情豐富的視頻生成：根據音頻的情感內容生成具有相應表情的說話視頻。
長視頻生成能力：能生成長時間、少誤差累積的說話視頻。

MEMO的技術原理

記憶引導的時間模塊：
- 記憶狀態：開發記憶狀態存儲來自更長過去上下文的信息，指導時間建模。
- 線性注意力：基于線性注意力機制使用長期信息，提高面部的連貫性，減少誤差累積。
情感感知音頻模塊：
- 多模態注意力：同時處理視頻和音頻輸入，增強兩者之間的交互。
- 音頻情感檢測：動態檢測音頻中的情感線索，將情感信息整合到視頻生成過程中，細化面部表情。
端到端框架：
- 參考網絡（Reference Net）：提供身份信息，用在空間和時間建模。
- 擴散網絡（Diffusion Net）：核心創新所在，包含記憶引導的時間模塊和情感感知音頻模塊。
數據處理流程：包括場景轉換檢測、人臉檢測、圖像質量評估、音頻-唇形同步檢測等步驟，確保數據質量。
訓練策略：分為兩個階段：面部領域適應和情感解耦的魯棒訓練，使用修正流量損失進行訓練。