<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        音頻驅(qū)動(dòng)的生成肖像說話視頻框架,保持身份一致性和表現(xiàn)力

        AI工具5個(gè)月前發(fā)布 AI工具集
        314 0 0

        產(chǎn)品名稱:MEMO
        產(chǎn)品簡介:MEMO(Memory-Guided EMOtionaware diffusion)是Skywork AI、南洋理工大學(xué)和新加坡國立大學(xué)推出的音頻驅(qū)動(dòng)肖像動(dòng)畫框架,用在生成具有身份一致性和表現(xiàn)力的說話視頻。MEMO圍繞兩個(gè)核心模塊構(gòu)建:記憶引導(dǎo)的時(shí)間模塊和情感感知音頻模塊。
        詳細(xì)介紹:

        MEMO是什么

        MEMO(Memory-Guided EMOtionaware diffusion)是Skywork AI、南洋理工大學(xué)和新加坡國立大學(xué)推出的音頻驅(qū)動(dòng)肖像動(dòng)畫框架,用在生成具有身份一致性和表現(xiàn)力的說話視頻。MEMO圍繞兩個(gè)核心模塊構(gòu)建:記憶引導(dǎo)的時(shí)間模塊和情感感知音頻模塊。記憶引導(dǎo)模塊通存儲(chǔ)更長期的信息增強(qiáng)身份一致性和平滑性,情感感知模塊用多模態(tài)注意力機(jī)制提升音頻與視頻的交互,根據(jù)音頻中的情感來細(xì)化面部表情。MEMO在多種圖像和音頻類型的說話視頻中,展現(xiàn)出比現(xiàn)有最先進(jìn)方法更優(yōu)秀的整體質(zhì)量、音頻-唇形同步、身份一致性和表情-情感對(duì)齊。

        音頻驅(qū)動(dòng)的生成肖像說話視頻框架,保持身份一致性和表現(xiàn)力

        MEMO的主要功能

        • 音頻驅(qū)動(dòng)的肖像動(dòng)畫:MEMO根據(jù)輸入的音頻和參考圖像生成同步的、具有身份一致性的說話視頻。
        • 多樣化內(nèi)容生成:支持多種圖像風(fēng)格(如肖像、雕塑、數(shù)字藝術(shù))和音頻類型(如演講、唱歌、說唱)的說話視頻生成。
        • 多語言支持:能處理包括英語、普通話、西班牙語、日語、韓語和粵語在內(nèi)的多種語言的音頻輸入。
        • 表情豐富的視頻生成:根據(jù)音頻的情感內(nèi)容生成具有相應(yīng)表情的說話視頻。
        • 長視頻生成能力:能生成長時(shí)間、少誤差累積的說話視頻。

        MEMO的技術(shù)原理

        • 記憶引導(dǎo)的時(shí)間模塊
          • 記憶狀態(tài):開發(fā)記憶狀態(tài)存儲(chǔ)來自更長過去上下文的信息,指導(dǎo)時(shí)間建模。
          • 線性注意力:基于線性注意力機(jī)制使用長期信息,提高面部的連貫性,減少誤差累積。
        • 情感感知音頻模塊
          • 多模態(tài)注意力:同時(shí)處理視頻和音頻輸入,增強(qiáng)兩者之間的交互。
          • 音頻情感檢測(cè):動(dòng)態(tài)檢測(cè)音頻中的情感線索,將情感信息整合到視頻生成過程中,細(xì)化面部表情。
        • 端到端框架
          • 參考網(wǎng)絡(luò)(Reference Net):提供身份信息,用在空間和時(shí)間建模。
          • 擴(kuò)散網(wǎng)絡(luò)(Diffusion Net):核心創(chuàng)新所在,包含記憶引導(dǎo)的時(shí)間模塊和情感感知音頻模塊。
        • 數(shù)據(jù)處理流程:包括場景轉(zhuǎn)換檢測(cè)、人臉檢測(cè)、圖像質(zhì)量評(píng)估、音頻-唇形同步檢測(cè)等步驟,確保數(shù)據(jù)質(zhì)量。
        • 訓(xùn)練策略:分為兩個(gè)階段:面部領(lǐng)域適應(yīng)和情感解耦的魯棒訓(xùn)練,使用修正流量損失進(jìn)行訓(xùn)練。

        MEMO的項(xiàng)目地址

        MEMO的應(yīng)用場景

        • 虛擬助手和機(jī)器人:生成虛擬助手或機(jī)器人的逼真視頻,在與用戶交流時(shí)更加自然和親切。
        • 娛樂和社交媒體:在娛樂行業(yè),創(chuàng)建虛擬偶像、游戲角色或社交媒體影響者的動(dòng)態(tài)視頻內(nèi)容。
        • 教育和培訓(xùn):生成教育視頻,其中教師或培訓(xùn)師的形象根據(jù)教學(xué)內(nèi)容動(dòng)態(tài)變化,提高學(xué)習(xí)體驗(yàn)的互動(dòng)性和吸引力。
        • 新聞和媒體:在新聞播報(bào)中,生成主播的視頻,特別是在需要多語言播報(bào)時(shí),快速生成對(duì)應(yīng)語言的主播視頻。
        • 廣告和營銷:創(chuàng)建定制化的廣告視頻,產(chǎn)品代言人根據(jù)不同的市場和受眾群體進(jìn)行個(gè)性化調(diào)整。
        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無評(píng)論

        暫無評(píng)論...
        主站蜘蛛池模板: 国产亚洲精品观看91在线| 亚洲七七久久精品中文国产| 久久亚洲免费视频| 亚在线观看免费视频入口| 国产成人A人亚洲精品无码| 免费无遮挡无码永久视频| 91亚洲国产在人线播放午夜| 免费观看激色视频网站bd| 亚洲av无码不卡久久| 毛片a级毛片免费播放下载| 色偷偷亚洲第一综合网| 亚洲第一区精品观看| 日本免费在线观看| 亚洲va在线va天堂成人| 免费人成视频在线观看视频| 13小箩利洗澡无码视频网站免费| 久久精品国产亚洲av麻豆小说| 成人免费男女视频网站慢动作| 在线观看www日本免费网站| 日本亚洲欧美色视频在线播放| 亚洲视频在线一区二区| **真实毛片免费观看 | 0588影视手机免费看片| 日韩免费的视频在线观看香蕉| 国产精品成人69XXX免费视频| 亚洲五月激情综合图片区| 女人18毛片特级一级免费视频 | 国产精品国产午夜免费福利看| 精品熟女少妇aⅴ免费久久| 色播亚洲视频在线观看| 亚洲国产精品va在线播放| 亚洲精品无码mv在线观看网站| 毛茸茸bbw亚洲人| 性短视频在线观看免费不卡流畅| 看亚洲a级一级毛片| 久久精品熟女亚洲av麻豆| 亚洲av无码一区二区三区人妖| 亚洲av成人无码网站…| 国产亚洲精彩视频| 亚洲神级电影国语版| 国产亚洲精品福利在线无卡一|