AIGC動態歡迎閱讀
原標題:字節讓達芬奇和蒙娜麗莎“隔空吵架”,只需一張圖、一段音頻、一個情感片段
關鍵字:字節跳動,團隊,情感,音頻,模型
文章來源:量子位
內容字數:2878字
內容摘要:
允中 發自 凹非寺量子位 | 公眾號 QbitAIAIGC在視頻生成領域展現出非凡的潛力。近期, 字節跳動智能創作團隊和得克薩斯大學達拉斯分校又提出了一項名為DREAM-Talk的基于擴散模型框架:接收一段驅動的音頻序列、一張給定的人像圖片和一個情感風格的例子(一段有情感的講話面部視頻)作為輸入,就能生成一段逼真的、嘴唇同步的講話面部視頻,其中包含高質量的情感表達,連畫像也能繪聲繪色地進行表演,還支持多個語種。
(以下結果包括真實人類圖像和由 AIGC 生成的圖像。)
DREAM-Talk 框架的流程如下:?
首先,將音頻映射到表情是一個一對多的問題,使得獲得動態和真實的表情變得困難。
其次,生成一系列3D臉部表情參數涉及許多問題,如連續性和多樣性。為了應對這些挑戰,團隊提出了基于擴散的模型,用于生成3D面部表情序列。以輸入的音頻、初始狀態和情感風格作為條件,團隊利用EmoDiff學習隨時間去噪3D表情,使用基于Transformer的架構進行序列建模。初始狀態對應于第一幀中的表情,情感風格由隨機選擇的表情片段定義,于輸入音頻。
從擴散模型獲得動態情感表達后,團隊觀察到擴散網絡無意
原文鏈接:字節讓達芬奇和蒙娜麗莎“隔空吵架”,只需一張圖、一段音頻、一個情感片段
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...