CVPR 2024 | 面部+肢體動(dòng)畫(huà),一個(gè)框架搞定從音頻生成數(shù)字人表情與動(dòng)作
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:CVPR 2024 | 面部+肢體動(dòng)畫(huà),一個(gè)框架搞定從音頻生成數(shù)字人表情與動(dòng)作
關(guān)鍵字:肢體,動(dòng)作,面部,音頻,提示
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):5511字
內(nèi)容摘要:
機(jī)器之心專(zhuān)欄
機(jī)器之心編輯部AI 數(shù)字人面部與肢體的驅(qū)動(dòng)算法作為數(shù)字人研發(fā)的重要環(huán)節(jié),可以大幅度降低 VR Chat、虛擬直播和游戲 NPC 等領(lǐng)域中的驅(qū)動(dòng)成本。
近年來(lái),基于語(yǔ)音生成面部、肢體和手部的動(dòng)作的各類(lèi)基線模型已經(jīng)逐漸成熟。然而,直接將不同模型的動(dòng)畫(huà)結(jié)果混合會(huì)導(dǎo)致最終全身整體的動(dòng)畫(huà)不協(xié)調(diào)。研究者逐漸考慮使用統(tǒng)一的框架來(lái)同時(shí)生成面部表情和肢體動(dòng)作。
然而,盡管研究社區(qū)在面部的表情和肢體的動(dòng)作上分別存在統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),已有的基線模型僅在的數(shù)據(jù)格式上進(jìn)行訓(xùn)練和評(píng)估,比如 FLAME (面部) 和 AMASS (肢體)。社區(qū)仍然缺少面向全身的,格式統(tǒng)一的訓(xùn)練數(shù)據(jù)和基線模型。
針對(duì)此問(wèn)題,東京大學(xué),清華大學(xué),德國(guó)馬普所的研究者聯(lián)合提出了 EMAGE,一個(gè)從音頻和動(dòng)作的掩碼中生體全身動(dòng)作的框架,包括面部、局部肢體、手部和全局。論文地址:https://arxiv.org/abs/2401.00374
項(xiàng)目主頁(yè):https://pantomatrix.github.io/EMAGE/
視頻結(jié)果:https://www.youtube.com/watch?v=T0OYPvVi
原文鏈接:CVPR 2024 | 面部+肢體動(dòng)畫(huà),一個(gè)框架搞定從音頻生成數(shù)字人表情與動(dòng)作
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專(zhuān)業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)