一張照片+音頻=超逼真數字人視頻！VASA-1模型拉開「實時交互」大幕

AIGC動態1年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：一張照片+音頻=超逼真數字人視頻！VASA-1模型拉開「實時交互」大幕
關鍵字：面部,頭部,視頻,模型,音頻
文章來源：新智元
內容字數：12149字

內容摘要：

新智元報道編輯：LRS
【新智元導讀】僅需一張照片加一段音頻，即可生成具有精確唇音同步、逼真面部行為和自然頭部的超逼真說話面部視頻，并且生成速度快，512×512分辨率下，生成速率可達40幀，啟動延遲可忽略不計。在人物說話的過程中，每一個細微的動作和表情都可以表達情感，都能向觀眾傳達出無聲的信息，也是影響生成結果真實性的關鍵因素。
如果能夠根據特定面容來自動生成一段生動逼真的形象，將徹底改變人類與人工智能系統的交互形式，例如改善有障礙患者的交流方式、增強人工智能輔導教育的趣味性、醫療保健場景下的治療支持和社會互動等。
最近，微軟亞洲研究院的研究人員拋出了一個重磅VASA-1框架，利用視覺情感技巧（VAS，visual affective skills），只需要輸入一張肖像照片+一段語音音頻，即可生成具有精確唇音同步、逼真面部行為和自然頭部的超逼真說話面部視頻。論文鏈接：https://arxiv.org/pdf/2404.10667.pdf
項目主頁：https://www.microsoft.com/en-us/research/project/vasa-1/
下面為一

原文鏈接：一張照片+音頻=超逼真數字人視頻！VASA-1模型拉開「實時交互」大幕