Lumiere: Google 發(fā)布用于視頻生成的時(shí)空擴(kuò)散模型
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Lumiere: Google 發(fā)布用于視頻生成的時(shí)空擴(kuò)散模型
關(guān)鍵字:模型,視頻,報(bào)告,時(shí)間,圖像
文章來源:人工智能學(xué)家
內(nèi)容字?jǐn)?shù):3900字
內(nèi)容摘要:
來源:跳動(dòng)的數(shù)據(jù)
Lumiere 一種文本轉(zhuǎn)視頻擴(kuò)散模型,旨在合成具有逼真、多樣和連貫的視頻,這是視頻合成領(lǐng)域的一項(xiàng)重大挑戰(zhàn)。為此,引入了一種時(shí)空 U-Net 架構(gòu),該架構(gòu)通過模型的一次單向傳遞即可生成視頻的整個(gè)時(shí)間段。這與現(xiàn)有視頻模型不同,現(xiàn)有視頻模型會(huì)先合成關(guān)鍵幀,然后再進(jìn)行時(shí)間超分辨率,這種方法從本質(zhì)上使得全局時(shí)間一致性難以實(shí)現(xiàn)。
https://arxiv.org/pdf/2401.12945.pdf
通過部署空間和(重要地)時(shí)間下采樣和上采樣以及利用預(yù)訓(xùn)練的文本轉(zhuǎn)圖像擴(kuò)散模型,我們的模型可以學(xué)習(xí)通過在多個(gè)時(shí)空尺度進(jìn)行處理來直接生成全幀率、低分辨率視頻。展示了最先進(jìn)的文本轉(zhuǎn)視頻生成結(jié)果,并表明我們的設(shè)計(jì)可以輕松地促進(jìn)各種內(nèi)容創(chuàng)作任務(wù)和視頻編輯應(yīng)用程序,包括圖像轉(zhuǎn)視頻、視頻修復(fù)和風(fēng)格化生成。
簡(jiǎn)介
指出了圖像生成模型在近年來取得的顯著進(jìn)展,尤其是在文本到圖像(T2I)擴(kuò)散模型方面。這些模型現(xiàn)在能夠合成高分辨率、逼真的圖像,并且能夠根據(jù)復(fù)雜的文本提示進(jìn)行圖像編輯和其他下游任務(wù)。
盡管圖像生成模型取得了巨大成功,但文本到視頻(T2V)模型的訓(xùn)練仍然是一個(gè)開放的挑戰(zhàn)。這是因?yàn)橐曨l數(shù)
原文鏈接:Lumiere: Google 發(fā)布用于視頻生成的時(shí)空擴(kuò)散模型
聯(lián)系作者
文章來源:人工智能學(xué)家
作者微信:AItists
作者簡(jiǎn)介:致力成為權(quán)威的人工智能科技媒體和前沿科技研究機(jī)構(gòu)