AIGC動態歡迎閱讀
原標題:一張照片+音頻=超逼真數字人視頻!VASA-1模型拉開「實時交互」大幕
關鍵字:面部,頭部,視頻,模型,音頻
文章來源:新智元
內容字數:12149字
內容摘要:
新智元報道編輯:LRS
【新智元導讀】僅需一張照片加一段音頻,即可生成具有精確唇音同步、逼真面部行為和自然頭部的超逼真說話面部視頻,并且生成速度快,512×512分辨率下,生成速率可達40幀,啟動延遲可忽略不計。在人物說話的過程中,每一個細微的動作和表情都可以表達情感,都能向觀眾傳達出無聲的信息,也是影響生成結果真實性的關鍵因素。
如果能夠根據特定面容來自動生成一段生動逼真的形象,將徹底改變人類與人工智能系統的交互形式,例如改善有障礙患者的交流方式、增強人工智能輔導教育的趣味性、醫療保健場景下的治療支持和社會互動等。
最近,微軟亞洲研究院的研究人員拋出了一個重磅VASA-1框架,利用視覺情感技巧(VAS,visual affective skills),只需要輸入一張肖像照片+一段語音音頻,即可生成具有精確唇音同步、逼真面部行為和自然頭部的超逼真說話面部視頻。論文鏈接:https://arxiv.org/pdf/2404.10667.pdf
項目主頁:https://www.microsoft.com/en-us/research/project/vasa-1/
下面為一
原文鏈接:一張照片+音頻=超逼真數字人視頻!VASA-1模型拉開「實時交互」大幕
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...