音頻驅(qū)動(dòng)人像視頻模型:字節(jié)Loopy、CyberHost研究成果揭秘
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:音頻驅(qū)動(dòng)人像視頻模型:字節(jié)Loopy、CyberHost研究成果揭秘
關(guān)鍵字:字節(jié)跳動(dòng),音頻,團(tuán)隊(duì),視頻,動(dòng)作
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心發(fā)布
機(jī)器之心編輯部近期,來自字節(jié)跳動(dòng)的視頻生成模型 Loopy,一經(jīng)發(fā)布就在 X 上引起了廣泛的討論。Loopy 可以僅僅通過一張圖片和一段音頻生成逼真的肖像視頻,對(duì)聲音中呼吸,嘆氣,挑眉等細(xì)節(jié)都能生成的非常自然,讓網(wǎng)友直呼哈利波特的魔法也不過如此。Loopy 模型采用了 Diffusion 視頻生成框架。輸入一張圖片和一段音頻,就可以生成相應(yīng)的視頻。不但可以實(shí)現(xiàn)準(zhǔn)確的音頻和口型同步,還可以生成細(xì)微自然的表情動(dòng)作,例如人物跟隨情緒節(jié)奏做出抬眉、吸氣、憋嘴停頓、嘆氣、肩膀等非語言類動(dòng)作也能很好地被捕捉到;在唱歌時(shí)也能表現(xiàn)得活靈活現(xiàn),駕馭不同風(fēng)格。柔和高昂rap
更多豐富風(fēng)格的展示,可移步項(xiàng)目主頁:https://Loopyavatar.github.io/, https://arxiv.org/pdf/2409.02634
在不同的圖片風(fēng)格上,Loopy 也都表現(xiàn)得不錯(cuò),像古風(fēng)畫像、粘土風(fēng)格、油畫風(fēng)格、3D 素材以及側(cè)臉的情況等等。Loopy 技術(shù)方案
具體來說,Loopy 是如何僅需音頻,就能實(shí)現(xiàn)這樣生動(dòng)的效果呢?Loopy 框架中分別對(duì)外觀信息(對(duì)應(yīng)圖中左上角)和音頻信
原文鏈接:音頻驅(qū)動(dòng)人像視頻模型:字節(jié)Loopy、CyberHost研究成果揭秘
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介: