霉霉開口唱碧昂絲的歌，又是AI！口型不出戲，五官姿態也自然，復旦百度等出品｜GitHub攬星1k+

AIGC動態歡迎閱讀

原標題：霉霉開口唱碧昂絲的歌，又是AI！口型不出戲，五官姿態也自然，復旦百度等出品｜GitHub攬星1k+
關鍵字：特征,音頻,編碼器,模型,視覺
文章來源：量子位
內容字數：0字

內容摘要：

西風發自凹非寺量子位 | 公眾號 QbitAI一張人像、一段音頻參考，就能讓霉霉在你面前唱碧昂絲的《Halo》。
一種名為Hallo的研究火了，GitHub已攬星1k+。
話不多說，來看更多效果：
不論是說話還是唱歌，都能和各種風格的人像相匹配。從口型到眉毛眼睛動作，各種五官細節都很自然。
單獨拎出不同動作強度的比較，動作幅度大也能駕馭：
單獨調整嘴唇幅度，表現是這樣嬸兒的：
有不少網友看過效果后，直呼這是目前最好的開源口型同步視頻生成：
這項工作由來自復旦大學、百度、蘇黎世聯邦理工學院和學的研究人員共同完成。
團隊提出了分層的音頻驅動視覺合成模塊，將人臉劃分為嘴唇、表情和姿態三個區域，分別學習它們與音頻的對齊關系，再通過自適應加權將這三個注意力模塊的輸出融合在一起，由此可以更精細地建模音視頻同步。
Hallo長啥樣？如前文所述，Hallo通過使用參考圖像、音頻序列以及可選的視覺合成權重，結合基于分層音頻驅動視覺合成方法的擴散模型來實現。
整體架構是這樣嬸兒的：
參考圖像經過一個ReferenceNet編碼全局視覺特征；人臉編碼器提取身份相關的特征；音頻編碼器將輸入語音轉

原文鏈接：霉霉開口唱碧昂絲的歌，又是AI！口型不出戲，五官姿態也自然，復旦百度等出品｜GitHub攬星1k+