字節(jié)AI版小李子一開口:黃風(fēng)嶺,八百里

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:字節(jié)AI版小李子一開口:黃風(fēng)嶺,八百里
關(guān)鍵字:特征,音頻,圖像,模塊,視頻
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
叨樂 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI字節(jié)和浙大聯(lián)合研發(fā)的項(xiàng)目Loopy火了!
只需一幀圖像,一段音頻,就能生成一段非常自然的視頻!
研究團(tuán)隊(duì)還放出了Loopy和同類應(yīng)用的對(duì)比視頻:
網(wǎng)友下場齊夸夸:
Loopy背后的技術(shù)有點(diǎn)牛哦!感覺互動(dòng)媒體有新未來了!
前途無量奧!
真這么牛?咱們一起來看一下!
Loopy的生成效果研究團(tuán)隊(duì)放出了一些DEMO視頻,內(nèi)容腦洞跨度有點(diǎn)大!
比如讓小李子唱《黑神話》靈吉菩薩的陜北說書(高音時(shí)還會(huì)皺眉):
讓兵馬俑滿口英倫腔:
蒙娜麗莎張口說話:
梅梅自帶Bgm說古裝臺(tái)詞(甚至還有挑眉的小動(dòng)作):
狼叔的側(cè)顏照也難不倒它:
嘆息聲的細(xì)節(jié)也能處理得很好:
真人肖像的效果也很自然(甚至說話時(shí)眼睛還會(huì)順勢看向其他方向):
Loopy如何“告別割裂感”?看完這些毫無違和感DEMO視頻,咱們來研究一下Loopy是如何生成這類視頻的:
總的來說,Loopy是一個(gè)端到端的音頻驅(qū)動(dòng)視頻生成模型。
它的框架可以由四部分構(gòu)成,分別是:
ReferenceNet:一個(gè)額外的網(wǎng)絡(luò)模塊,它復(fù)制了原始SD U-Net的結(jié)構(gòu),以參考圖像的潛在表示作為輸入,來提取參考圖像的特
原文鏈接:字節(jié)AI版小李子一開口:黃風(fēng)嶺,八百里
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:

粵公網(wǎng)安備 44011502001135號(hào)