
AIGC動態歡迎閱讀
原標題:微軟炸裂級單圖生數字人,Sora同款思路,“比AI劉強東還真”
關鍵字:視頻,頭部,面部,表情,動作
文章來源:量子位
內容字數:4320字
內容摘要:
夢晨 發自 凹非寺量子位 | 公眾號 QbitAIAI偽造真人視頻,門檻再次降低。
微軟發布一張圖生成數字人技術VASA-1,網友看過直呼“炸裂級效果”,比“AI劉強東還真”。
話不多說,直接上一分鐘演示視頻:
做到以假亂真效果,不用針對特定人物訓練,只要上傳一張人臉圖片、一段音頻,哪怕不是真人也行。
比如可以讓蒙娜麗莎唱Rap,模仿安妮海瑟薇即興吐槽狗仔隊名場面。
或者讓素描人像念華強臺詞。
在項目主頁還有更多1分鐘視頻,以及更更多15秒視頻可看。
不同性別、年齡、種族的數字人,用著不同的口音在說話。
根據團隊在論文中的描述,VASA-1擁有如下特點:
唇形與語音的精準同步
這是最基本的,VASA-1在定量評估中也做到了頂尖水平。
豐富而自然的面部表情
不光做到讓照片“開口說話”,眉毛、眼神、微表情等也跟著協調,避免顯得呆板。
人性化的頭部動作
說話時適當的點頭、搖頭、歪頭等動作,能讓人物看起來更加鮮活、更有說服力。
總得來說,仔細看的話眼睛還有一些破綻,但已經被網友評為“迄今為止最佳演示”。
然而更恐怖的是,整個系統推理速度還是實時級的。
生成512×512分辨率的視頻,使用一
原文鏈接:微軟炸裂級單圖生數字人,Sora同款思路,“比AI劉強東還真”
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...

粵公網安備 44011502001135號