霉霉開(kāi)口唱碧昂絲的歌,又是AI!口型不出戲,五官姿態(tài)也自然,復(fù)旦百度等出品|GitHub攬星1k+

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:霉霉開(kāi)口唱碧昂絲的歌,又是AI!口型不出戲,五官姿態(tài)也自然,復(fù)旦百度等出品|GitHub攬星1k+
關(guān)鍵字:特征,音頻,編碼器,模型,視覺(jué)
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
西風(fēng) 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI一張人像、一段音頻參考,就能讓霉霉在你面前唱碧昂絲的《Halo》。
一種名為Hallo的研究火了,GitHub已攬星1k+。
話不多說(shuō),來(lái)看更多效果:
不論是說(shuō)話還是唱歌,都能和各種風(fēng)格的人像相匹配。從口型到眉毛眼睛動(dòng)作,各種五官細(xì)節(jié)都很自然。
單獨(dú)拎出不同動(dòng)作強(qiáng)度的比較,動(dòng)作幅度大也能駕馭:
單獨(dú)調(diào)整嘴唇幅度,表現(xiàn)是這樣?jì)饍旱模?br />有不少網(wǎng)友看過(guò)效果后,直呼這是目前最好的開(kāi)源口型同步視頻生成:
這項(xiàng)工作由來(lái)自復(fù)旦大學(xué)、百度、蘇黎世聯(lián)邦理工學(xué)院和學(xué)的研究人員共同完成。
團(tuán)隊(duì)提出了分層的音頻驅(qū)動(dòng)視覺(jué)合成模塊,將人臉劃分為嘴唇、表情和姿態(tài)三個(gè)區(qū)域,分別學(xué)習(xí)它們與音頻的對(duì)齊關(guān)系,再通過(guò)自適應(yīng)加權(quán)將這三個(gè)注意力模塊的輸出融合在一起,由此可以更精細(xì)地建模音視頻同步。
Hallo長(zhǎng)啥樣?如前文所述,Hallo通過(guò)使用參考圖像、音頻序列以及可選的視覺(jué)合成權(quán)重,結(jié)合基于分層音頻驅(qū)動(dòng)視覺(jué)合成方法的擴(kuò)散模型來(lái)實(shí)現(xiàn)。
整體架構(gòu)是這樣?jì)饍旱模?br />參考圖像經(jīng)過(guò)一個(gè)ReferenceNet編碼全局視覺(jué)特征;人臉編碼器提取身份相關(guān)的特征;音頻編碼器將輸入語(yǔ)音轉(zhuǎn)
原文鏈接:霉霉開(kāi)口唱碧昂絲的歌,又是AI!口型不出戲,五官姿態(tài)也自然,復(fù)旦百度等出品|GitHub攬星1k+
聯(lián)系作者
文章來(lái)源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破

粵公網(wǎng)安備 44011502001135號(hào)