AIGC動態歡迎閱讀
原標題:霉霉開口唱碧昂絲的歌,又是AI!口型不出戲,五官姿態也自然,復旦百度等出品|GitHub攬星1k+
關鍵字:特征,音頻,編碼器,模型,視覺
文章來源:量子位
內容字數:0字
內容摘要:
西風 發自 凹非寺量子位 | 公眾號 QbitAI一張人像、一段音頻參考,就能讓霉霉在你面前唱碧昂絲的《Halo》。
一種名為Hallo的研究火了,GitHub已攬星1k+。
話不多說,來看更多效果:
不論是說話還是唱歌,都能和各種風格的人像相匹配。從口型到眉毛眼睛動作,各種五官細節都很自然。
單獨拎出不同動作強度的比較,動作幅度大也能駕馭:
單獨調整嘴唇幅度,表現是這樣嬸兒的:
有不少網友看過效果后,直呼這是目前最好的開源口型同步視頻生成:
這項工作由來自復旦大學、百度、蘇黎世聯邦理工學院和學的研究人員共同完成。
團隊提出了分層的音頻驅動視覺合成模塊,將人臉劃分為嘴唇、表情和姿態三個區域,分別學習它們與音頻的對齊關系,再通過自適應加權將這三個注意力模塊的輸出融合在一起,由此可以更精細地建模音視頻同步。
Hallo長啥樣?如前文所述,Hallo通過使用參考圖像、音頻序列以及可選的視覺合成權重,結合基于分層音頻驅動視覺合成方法的擴散模型來實現。
整體架構是這樣嬸兒的:
參考圖像經過一個ReferenceNet編碼全局視覺特征;人臉編碼器提取身份相關的特征;音頻編碼器將輸入語音轉
原文鏈接:霉霉開口唱碧昂絲的歌,又是AI!口型不出戲,五官姿態也自然,復旦百度等出品|GitHub攬星1k+
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...