AIGC動態歡迎閱讀
原標題:音頻驅動人像視頻模型:字節Loopy、CyberHost研究成果揭秘
關鍵字:字節跳動,音頻,團隊,視頻,動作
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心發布
機器之心編輯部近期,來自字節跳動的視頻生成模型 Loopy,一經發布就在 X 上引起了廣泛的討論。Loopy 可以僅僅通過一張圖片和一段音頻生成逼真的肖像視頻,對聲音中呼吸,嘆氣,挑眉等細節都能生成的非常自然,讓網友直呼哈利波特的魔法也不過如此。Loopy 模型采用了 Diffusion 視頻生成框架。輸入一張圖片和一段音頻,就可以生成相應的視頻。不但可以實現準確的音頻和口型同步,還可以生成細微自然的表情動作,例如人物跟隨情緒節奏做出抬眉、吸氣、憋嘴停頓、嘆氣、肩膀等非語言類動作也能很好地被捕捉到;在唱歌時也能表現得活靈活現,駕馭不同風格。柔和高昂rap
更多豐富風格的展示,可移步項目主頁:https://Loopyavatar.github.io/, https://arxiv.org/pdf/2409.02634
在不同的圖片風格上,Loopy 也都表現得不錯,像古風畫像、粘土風格、油畫風格、3D 素材以及側臉的情況等等。Loopy 技術方案
具體來說,Loopy 是如何僅需音頻,就能實現這樣生動的效果呢?Loopy 框架中分別對外觀信息(對應圖中左上角)和音頻信
原文鏈接:音頻驅動人像視頻模型:字節Loopy、CyberHost研究成果揭秘
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...