AIGC動態歡迎閱讀
原標題:一張照片、一段聲音秒生超逼真視頻!南大等提出全新框架,口型動作精準還原
文章來源:新智元
內容字數:5582字
內容摘要:新智元報道編輯:潤 好困【新智元導讀】最近,來自南大等機構的研究人員開發了一個通用的框架,用一段音頻就能讓照片上的頭像講多國語言。不論是頭部動作還是嘴型都非常自然,看到很多不錯的一段音頻+一張照片,瞬間照片里的人就能開始講話了。生成的講話動畫不但口型和音頻能夠無縫對齊,面部表情和頭部姿勢都非常自然而且有表現力。而且支持的圖像風格也非常的多樣,除了一般的照片,卡通圖片,證件照等生成的效果都非常自然。再加上多語言的支持,瞬間照片里的人物就活了過來,張嘴就能飆外語。這是由來自學等機構的研究人員提出的一個通用框架——VividTalk,只需要語音和一張圖片,就能生成高質量的說話視頻。論文地址:https://arxiv.org/abs/2312.01841這個框架是一個由音頻到網格生成,和網格到視頻生成組成的兩階段框架。在第一階段,考慮面部和blendshape分布之間的一對多映射,利用…
原文鏈接:點此閱讀原文:一張照片、一段聲音秒生超逼真視頻!南大等提出全新框架,口型動作精準還原
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...