Lumiere: Google 發(fā)布用于視頻生成的時空擴散模型

AIGC動態(tài)2年前 (2024)發(fā)布人工智能學家

AIGC動態(tài)歡迎閱讀

原標題：Lumiere: Google 發(fā)布用于視頻生成的時空擴散模型
關(guān)鍵字：模型,視頻,報告,時間,圖像
文章來源：人工智能學家
內(nèi)容字數(shù)：3900字

內(nèi)容摘要：

來源：跳動的數(shù)據(jù)
Lumiere 一種文本轉(zhuǎn)視頻擴散模型，旨在合成具有逼真、多樣和連貫的視頻，這是視頻合成領(lǐng)域的一項重大挑戰(zhàn)。為此，引入了一種時空 U-Net 架構(gòu)，該架構(gòu)通過模型的一次單向傳遞即可生成視頻的整個時間段。這與現(xiàn)有視頻模型不同，現(xiàn)有視頻模型會先合成關(guān)鍵幀，然后再進行時間超分辨率，這種方法從本質(zhì)上使得全局時間一致性難以實現(xiàn)。
https://arxiv.org/pdf/2401.12945.pdf
通過部署空間和（重要地）時間下采樣和上采樣以及利用預訓練的文本轉(zhuǎn)圖像擴散模型，我們的模型可以學習通過在多個時空尺度進行處理來直接生成全幀率、低分辨率視頻。展示了最先進的文本轉(zhuǎn)視頻生成結(jié)果，并表明我們的設(shè)計可以輕松地促進各種內(nèi)容創(chuàng)作任務和視頻編輯應用程序，包括圖像轉(zhuǎn)視頻、視頻修復和風格化生成。
簡介
指出了圖像生成模型在近年來取得的顯著進展，尤其是在文本到圖像（T2I）擴散模型方面。這些模型現(xiàn)在能夠合成高分辨率、逼真的圖像，并且能夠根據(jù)復雜的文本提示進行圖像編輯和其他下游任務。
盡管圖像生成模型取得了巨大成功，但文本到視頻（T2V）模型的訓練仍然是一個開放的挑戰(zhàn)。這是因為視頻數(shù)

原文鏈接：Lumiere: Google 發(fā)布用于視頻生成的時空擴散模型