音頻驅動人像視頻模型：字節Loopy、CyberHost研究成果揭秘

AIGC動態1年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：音頻驅動人像視頻模型：字節Loopy、CyberHost研究成果揭秘
關鍵字：字節跳動,音頻,團隊,視頻,動作
文章來源：機器之心
內容字數：0字

內容摘要：

機器之心發布
機器之心編輯部近期，來自字節跳動的視頻生成模型 Loopy，一經發布就在 X 上引起了廣泛的討論。Loopy 可以僅僅通過一張圖片和一段音頻生成逼真的肖像視頻，對聲音中呼吸，嘆氣，挑眉等細節都能生成的非常自然，讓網友直呼哈利波特的魔法也不過如此。Loopy 模型采用了 Diffusion 視頻生成框架。輸入一張圖片和一段音頻，就可以生成相應的視頻。不但可以實現準確的音頻和口型同步，還可以生成細微自然的表情動作，例如人物跟隨情緒節奏做出抬眉、吸氣、憋嘴停頓、嘆氣、肩膀等非語言類動作也能很好地被捕捉到；在唱歌時也能表現得活靈活現，駕馭不同風格。柔和高昂rap
更多豐富風格的展示，可移步項目主頁：https://Loopyavatar.github.io/, https://arxiv.org/pdf/2409.02634
在不同的圖片風格上，Loopy 也都表現得不錯，像古風畫像、粘土風格、油畫風格、3D 素材以及側臉的情況等等。Loopy 技術方案
具體來說，Loopy 是如何僅需音頻，就能實現這樣生動的效果呢？Loopy 框架中分別對外觀信息（對應圖中左上角）和音頻信

原文鏈接：音頻驅動人像視頻模型：字節Loopy、CyberHost研究成果揭秘