湯曉鷗帶隊：免調(diào)優(yōu)長視頻生成，可支持512幀！任何擴散模型都能用｜ICLR'24

AIGC動態(tài)2年前 (2024)發(fā)布量子位

湯曉鷗弟子帶隊：免調(diào)優(yōu)長視頻生成，可支持512幀！任何擴散模型都能用｜ICLR'24

AIGC動態(tài)歡迎閱讀

原標(biāo)題：湯曉鷗帶隊：免調(diào)優(yōu)長視頻生成，可支持512幀！任何擴散模型都能用｜ICLR'24
關(guān)鍵字：騰訊,噪聲,視頻,時間,方法
文章來源：量子位
內(nèi)容字?jǐn)?shù)：4685字

內(nèi)容摘要：

豐色發(fā)自凹非寺量子位 | 公眾號 QbitAI想要AI生成更長的視頻？
現(xiàn)在，有人提出了一個效果很不錯的免調(diào)優(yōu)方法，直接就能作用于預(yù)訓(xùn)練好的視頻擴散模型。
它最長可支持512幀（假設(shè)幀率按30fps算，理論上那就是能生成約17秒長的作品了）。可應(yīng)用于任何視頻生成模型，比如AnimateDiff、LaVie等等。
以及還能支持多文本生成，比如可以讓駱駝一會跑一會停：
（提示詞：”A camel running on the snow field.” -> “…… standing ……”）
這項成果來自騰訊AI Lab、南洋理工大學(xué)以及港科大，入選了ICLR 2024。
值得一提的是，與此前業(yè)內(nèi)性能最佳的同類方法帶來255%的額外時間成本相比，它僅產(chǎn)生約17%的時間成本，因此直接可以忽略不計。
可以說是成本和性能兩全了～
具體來看看。
通過重新調(diào)度噪聲實現(xiàn)該方法主要解決的是兩個問題：
一是現(xiàn)有視頻生成通常在有限數(shù)量的幀上完成訓(xùn)練，導(dǎo)致推理過程中無法生成高保真長視頻。
二是這些模型還僅支持單文本生成（即使你給了“一個人睡在桌子上，然后看書”這種提示詞，模型也只會響應(yīng)其中一個條件），而應(yīng)

原文鏈接：湯曉鷗帶隊：免調(diào)優(yōu)長視頻生成，可支持512幀！任何擴散模型都能用｜ICLR'24