<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        OmniHuman

        AI工具3個(gè)月前更新 AI工具集
        1,338 0 0

        OmniHuman – 字節(jié)跳動(dòng)推出的單張照片生成全身動(dòng)態(tài)視頻生成框架

        OmniHuman是什么

        OmniHuman是字節(jié)跳動(dòng)推出的一種先進(jìn)的多模態(tài)視頻生成框架,能夠根據(jù)單一的人類圖像及信號(hào)(如音頻、視頻或兩者的結(jié)合)生成栩栩如生的人類視頻。該框架采用多模態(tài)條件混合訓(xùn)練策略,有效克服了以往方法因高質(zhì)量數(shù)據(jù)稀缺而造成的性能瓶頸,支持多種寬高比的圖像輸入(涵蓋肖像、半身和全身圖像),并能夠適應(yīng)多種場景需求。OmniHuman在歌唱、對(duì)話和手勢處理等多個(gè)領(lǐng)域表現(xiàn)優(yōu)異,支持多種視覺和音頻風(fēng)格,能夠利用音頻、視頻及其組合來生成高質(zhì)量的視頻內(nèi)容。

        OmniHuman

        OmniHuman的主要功能

        • 多模態(tài)驅(qū)動(dòng)的視頻生成
          • 支持音頻驅(qū)動(dòng)(如對(duì)話、唱歌)和姿勢驅(qū)動(dòng)(如手勢、動(dòng)作),并可融合兩者生成流暢自然的人類動(dòng)作視頻。
          • 兼容多種輸入形式,包括面部特寫、半身像、全身像,適應(yīng)不同比例和風(fēng)格的圖像。
        • 高逼真度與多樣化動(dòng)作
          • 生成的視頻在視覺效果上高度真實(shí),具備自然的面部表情、肢體動(dòng)作和流暢的動(dòng)態(tài)表現(xiàn)。
          • 能夠處理復(fù)雜動(dòng)作和物體交互,例如在唱歌時(shí)演奏樂器、手勢與物體之間的自然互動(dòng)等。
        • 靈活的視頻生成
          • 支持任意寬高比和時(shí)長的視頻生成,根據(jù)輸入信號(hào)生成不同長度的視頻片段。
          • 兼容多種圖像風(fēng)格,包括寫實(shí)、卡通和風(fēng)格化的人物表現(xiàn)。
        • 多場景適應(yīng)性:在各種環(huán)境中生成高質(zhì)量視頻,涵蓋不同的背景、光照條件和攝像角度。

        OmniHuman的技術(shù)原理

        • 混合條件訓(xùn)練策略
          • 多條件融合:將文本、音頻和姿勢等多種相關(guān)條件混合于訓(xùn)練過程中,以減少數(shù)據(jù)選擇的浪費(fèi),充分利用不同條件之間的互補(bǔ)性。
          • 分階段訓(xùn)練:基于三階段的訓(xùn)練策略,逐步引入不同條件(文本、音頻、姿勢),根據(jù)條件的強(qiáng)弱調(diào)整訓(xùn)練比例,從而優(yōu)化模型的泛化能力。
          • 訓(xùn)練原則:更強(qiáng)條件的任務(wù)需要使用較弱條件的任務(wù)及其對(duì)應(yīng)數(shù)據(jù),以擴(kuò)大數(shù)據(jù)規(guī)模。條件越強(qiáng),訓(xùn)練比例應(yīng)越低,以避免模型過度依賴于強(qiáng)條件。
        • 擴(kuò)散變換器架構(gòu)
          • 基于DiT的模型:OmniHuman基于先進(jìn)的視頻生成模型架構(gòu)DiT,利用因果3DVAE將視頻投影至潛在空間,并以流匹配作為訓(xùn)練目標(biāo)。
          • 條件注入
            • 音頻條件:通過wav2vec模型提取音頻特征,并將其與視頻幀特征結(jié)合,生成音頻令牌,基于交叉注意力機(jī)制注入至模型中。
            • 姿勢條件:利用姿勢引導(dǎo)器處理姿勢條件,將姿勢熱圖特征與視頻幀特征結(jié)合,生成姿勢令牌,連同噪聲潛在表示一起輸入模型。
            • 文本條件:保留DiT架構(gòu)中的文本分支,用于描述生成視頻的內(nèi)容。
          • 參考條件處理:采用創(chuàng)新的參考條件策略,通過修改3D旋轉(zhuǎn)位置嵌入,將參考圖像特征與視頻特征融合,無需額外的網(wǎng)絡(luò)模塊。
          • 推理策略
            • 分類器引導(dǎo)(CFG):在推理過程中,對(duì)音頻和文本條件應(yīng)用CFG策略,通過逐步降低CFG強(qiáng)度,平衡表達(dá)性與計(jì)算效率,減少生成視頻中的瑕疵。
            • 長視頻生成:使用上一個(gè)視頻片段的最后幾幀作為幀,確保長視頻生成中的時(shí)間連貫性和身份一致性。

        OmniHuman的項(xiàng)目地址

        OmniHuman的應(yīng)用場景

        • 影視與娛樂:生成虛擬角色動(dòng)畫、虛擬主播和音樂視頻等,提升內(nèi)容創(chuàng)作的效率和視覺吸引力。
        • 游戲開發(fā):為游戲角色和非玩家角色(NPC)生成自然動(dòng)作,增強(qiáng)游戲的沉浸感和互動(dòng)性。
        • 教育與培訓(xùn):創(chuàng)建虛擬教師和模擬訓(xùn)練視頻,輔助語言學(xué)習(xí)與職業(yè)技能培訓(xùn)。
        • 廣告與營銷:生成個(gè)性化廣告和品牌推廣視頻,提升用戶參與度和內(nèi)容吸引力。
        • 社交媒體與內(nèi)容創(chuàng)作:幫助創(chuàng)作者快速生成高質(zhì)量短視頻,支持互動(dòng)視頻創(chuàng)作,增加內(nèi)容的趣味性。
        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無評(píng)論

        暫無評(píng)論...
        主站蜘蛛池模板: a级黄色毛片免费播放视频| 国产免费内射又粗又爽密桃视频| 免费国产叼嘿视频大全网站| 奇米影视亚洲春色| 大香人蕉免费视频75| 亚洲国产激情在线一区| 国产成在线观看免费视频| 亚洲人配人种jizz| 久久久久久国产精品免费免费| 亚洲午夜精品一区二区公牛电影院 | eeuss影院免费92242部| 亚洲偷自拍拍综合网| 中文字幕乱码免费看电影| 亚洲AV永久无码精品| 国产亚洲午夜精品| 免费a级毛片在线观看| 一区二区三区免费在线观看| 最新亚洲成av人免费看| 国产精品免费看久久久| 亚洲女同成人AⅤ人片在线观看 | 三年片免费高清版| 亚洲首页在线观看| 女人18一级毛片免费观看| 免费无码AV一区二区| 久久久久久久综合日本亚洲| 亚洲精品免费在线视频| 色偷偷噜噜噜亚洲男人| 亚洲午夜福利在线观看| 91禁漫免费进入| 国产V亚洲V天堂A无码| 老汉精品免费AV在线播放| 亚洲日本天堂在线| 国产亚洲精品拍拍拍拍拍| 亚洲精品乱码久久久久久V| 亚洲人成色77777在线观看大| 免费无码又爽又刺激高潮软件| 亚洲国产美女视频| 亚洲精品无码激情AV| 1000部拍拍拍18勿入免费视频软件 | 亚洲综合精品香蕉久久网97| 毛片在线免费视频|