產(chǎn)品名稱:MEMO
產(chǎn)品簡介:MEMO(Memory-Guided EMOtionaware diffusion)是Skywork AI、南洋理工大學(xué)和新加坡國立大學(xué)推出的音頻驅(qū)動(dòng)肖像動(dòng)畫框架,用在生成具有身份一致性和表現(xiàn)力的說話視頻。MEMO圍繞兩個(gè)核心模塊構(gòu)建:記憶引導(dǎo)的時(shí)間模塊和情感感知音頻模塊。
詳細(xì)介紹:
MEMO是什么
MEMO(Memory-Guided EMOtionaware diffusion)是Skywork AI、南洋理工大學(xué)和新加坡國立大學(xué)推出的音頻驅(qū)動(dòng)肖像動(dòng)畫框架,用在生成具有身份一致性和表現(xiàn)力的說話視頻。MEMO圍繞兩個(gè)核心模塊構(gòu)建:記憶引導(dǎo)的時(shí)間模塊和情感感知音頻模塊。記憶引導(dǎo)模塊通存儲(chǔ)更長期的信息增強(qiáng)身份一致性和平滑性,情感感知模塊用多模態(tài)注意力機(jī)制提升音頻與視頻的交互,根據(jù)音頻中的情感來細(xì)化面部表情。MEMO在多種圖像和音頻類型的說話視頻中,展現(xiàn)出比現(xiàn)有最先進(jìn)方法更優(yōu)秀的整體質(zhì)量、音頻-唇形同步、身份一致性和表情-情感對(duì)齊。
MEMO的主要功能
- 音頻驅(qū)動(dòng)的肖像動(dòng)畫:MEMO根據(jù)輸入的音頻和參考圖像生成同步的、具有身份一致性的說話視頻。
- 多樣化內(nèi)容生成:支持多種圖像風(fēng)格(如肖像、雕塑、數(shù)字藝術(shù))和音頻類型(如演講、唱歌、說唱)的說話視頻生成。
- 多語言支持:能處理包括英語、普通話、西班牙語、日語、韓語和粵語在內(nèi)的多種語言的音頻輸入。
- 表情豐富的視頻生成:根據(jù)音頻的情感內(nèi)容生成具有相應(yīng)表情的說話視頻。
- 長視頻生成能力:能生成長時(shí)間、少誤差累積的說話視頻。
MEMO的技術(shù)原理
- 記憶引導(dǎo)的時(shí)間模塊:
- 記憶狀態(tài):開發(fā)記憶狀態(tài)存儲(chǔ)來自更長過去上下文的信息,指導(dǎo)時(shí)間建模。
- 線性注意力:基于線性注意力機(jī)制使用長期信息,提高面部的連貫性,減少誤差累積。
- 情感感知音頻模塊:
- 多模態(tài)注意力:同時(shí)處理視頻和音頻輸入,增強(qiáng)兩者之間的交互。
- 音頻情感檢測(cè):動(dòng)態(tài)檢測(cè)音頻中的情感線索,將情感信息整合到視頻生成過程中,細(xì)化面部表情。
- 端到端框架:
- 參考網(wǎng)絡(luò)(Reference Net):提供身份信息,用在空間和時(shí)間建模。
- 擴(kuò)散網(wǎng)絡(luò)(Diffusion Net):核心創(chuàng)新所在,包含記憶引導(dǎo)的時(shí)間模塊和情感感知音頻模塊。
- 數(shù)據(jù)處理流程:包括場景轉(zhuǎn)換檢測(cè)、人臉檢測(cè)、圖像質(zhì)量評(píng)估、音頻-唇形同步檢測(cè)等步驟,確保數(shù)據(jù)質(zhì)量。
- 訓(xùn)練策略:分為兩個(gè)階段:面部領(lǐng)域適應(yīng)和情感解耦的魯棒訓(xùn)練,使用修正流量損失進(jìn)行訓(xùn)練。
MEMO的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):memoavatar.github.io
- GitHub倉庫:https://github.com/memoavatar/memo
- HuggingFace模型庫:https://huggingface.co/memoavatar/memo
- arXiv技術(shù)論文:https://arxiv.org/pdf/2412.04448
MEMO的應(yīng)用場景
- 虛擬助手和機(jī)器人:生成虛擬助手或機(jī)器人的逼真視頻,在與用戶交流時(shí)更加自然和親切。
- 娛樂和社交媒體:在娛樂行業(yè),創(chuàng)建虛擬偶像、游戲角色或社交媒體影響者的動(dòng)態(tài)視頻內(nèi)容。
- 教育和培訓(xùn):生成教育視頻,其中教師或培訓(xùn)師的形象根據(jù)教學(xué)內(nèi)容動(dòng)態(tài)變化,提高學(xué)習(xí)體驗(yàn)的互動(dòng)性和吸引力。
- 新聞和媒體:在新聞播報(bào)中,生成主播的視頻,特別是在需要多語言播報(bào)時(shí),快速生成對(duì)應(yīng)語言的主播視頻。
- 廣告和營銷:創(chuàng)建定制化的廣告視頻,產(chǎn)品代言人根據(jù)不同的市場和受眾群體進(jìn)行個(gè)性化調(diào)整。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無評(píng)論...