字節讓達芬奇和蒙娜麗莎“隔空吵架”，只需一張圖、一段音頻、一個情感片段

AIGC動態2年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：字節讓達芬奇和蒙娜麗莎“隔空吵架”，只需一張圖、一段音頻、一個情感片段
關鍵字：字節跳動,團隊,情感,音頻,模型
文章來源：量子位
內容字數：2878字

內容摘要：

允中發自凹非寺量子位 | 公眾號 QbitAIAIGC在視頻生成領域展現出非凡的潛力。近期，字節跳動智能創作團隊和得克薩斯大學達拉斯分校又提出了一項名為DREAM-Talk的基于擴散模型框架：接收一段驅動的音頻序列、一張給定的人像圖片和一個情感風格的例子（一段有情感的講話面部視頻）作為輸入，就能生成一段逼真的、嘴唇同步的講話面部視頻，其中包含高質量的情感表達，連畫像也能繪聲繪色地進行表演，還支持多個語種。
（以下結果包括真實人類圖像和由 AIGC 生成的圖像。）
DREAM-Talk 框架的流程如下：?
首先，將音頻映射到表情是一個一對多的問題，使得獲得動態和真實的表情變得困難。
其次，生成一系列3D臉部表情參數涉及許多問題，如連續性和多樣性。為了應對這些挑戰，團隊提出了基于擴散的模型，用于生成3D面部表情序列。以輸入的音頻、初始狀態和情感風格作為條件，團隊利用EmoDiff學習隨時間去噪3D表情，使用基于Transformer的架構進行序列建模。初始狀態對應于第一幀中的表情，情感風格由隨機選擇的表情片段定義，于輸入音頻。
從擴散模型獲得動態情感表達后，團隊觀察到擴散網絡無意

原文鏈接：字節讓達芬奇和蒙娜麗莎“隔空吵架”，只需一張圖、一段音頻、一個情感片段