產品名稱:MEMO
產品簡介:MEMO(Memory-Guided EMOtionaware diffusion)是Skywork AI、南洋理工大學和新加坡國立大學推出的音頻驅動肖像動畫框架,用在生成具有身份一致性和表現力的說話視頻。MEMO圍繞兩個核心模塊構建:記憶引導的時間模塊和情感感知音頻模塊。
詳細介紹:
MEMO是什么
MEMO(Memory-Guided EMOtionaware diffusion)是Skywork AI、南洋理工大學和新加坡國立大學推出的音頻驅動肖像動畫框架,用在生成具有身份一致性和表現力的說話視頻。MEMO圍繞兩個核心模塊構建:記憶引導的時間模塊和情感感知音頻模塊。記憶引導模塊通存儲更長期的信息增強身份一致性和平滑性,情感感知模塊用多模態注意力機制提升音頻與視頻的交互,根據音頻中的情感來細化面部表情。MEMO在多種圖像和音頻類型的說話視頻中,展現出比現有最先進方法更優秀的整體質量、音頻-唇形同步、身份一致性和表情-情感對齊。
MEMO的主要功能
- 音頻驅動的肖像動畫:MEMO根據輸入的音頻和參考圖像生成同步的、具有身份一致性的說話視頻。
- 多樣化內容生成:支持多種圖像風格(如肖像、雕塑、數字藝術)和音頻類型(如演講、唱歌、說唱)的說話視頻生成。
- 多語言支持:能處理包括英語、普通話、西班牙語、日語、韓語和粵語在內的多種語言的音頻輸入。
- 表情豐富的視頻生成:根據音頻的情感內容生成具有相應表情的說話視頻。
- 長視頻生成能力:能生成長時間、少誤差累積的說話視頻。
MEMO的技術原理
- 記憶引導的時間模塊:
- 記憶狀態:開發記憶狀態存儲來自更長過去上下文的信息,指導時間建模。
- 線性注意力:基于線性注意力機制使用長期信息,提高面部的連貫性,減少誤差累積。
- 情感感知音頻模塊:
- 多模態注意力:同時處理視頻和音頻輸入,增強兩者之間的交互。
- 音頻情感檢測:動態檢測音頻中的情感線索,將情感信息整合到視頻生成過程中,細化面部表情。
- 端到端框架:
- 參考網絡(Reference Net):提供身份信息,用在空間和時間建模。
- 擴散網絡(Diffusion Net):核心創新所在,包含記憶引導的時間模塊和情感感知音頻模塊。
- 數據處理流程:包括場景轉換檢測、人臉檢測、圖像質量評估、音頻-唇形同步檢測等步驟,確保數據質量。
- 訓練策略:分為兩個階段:面部領域適應和情感解耦的魯棒訓練,使用修正流量損失進行訓練。
MEMO的項目地址
- 項目官網:memoavatar.github.io
- GitHub倉庫:https://github.com/memoavatar/memo
- HuggingFace模型庫:https://huggingface.co/memoavatar/memo
- arXiv技術論文:https://arxiv.org/pdf/2412.04448
MEMO的應用場景
- 虛擬助手和機器人:生成虛擬助手或機器人的逼真視頻,在與用戶交流時更加自然和親切。
- 娛樂和社交媒體:在娛樂行業,創建虛擬偶像、游戲角色或社交媒體影響者的動態視頻內容。
- 教育和培訓:生成教育視頻,其中教師或培訓師的形象根據教學內容動態變化,提高學習體驗的互動性和吸引力。
- 新聞和媒體:在新聞播報中,生成主播的視頻,特別是在需要多語言播報時,快速生成對應語言的主播視頻。
- 廣告和營銷:創建定制化的廣告視頻,產品代言人根據不同的市場和受眾群體進行個性化調整。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...