湯曉鷗帶隊:免調(diào)優(yōu)長視頻生成,可支持512幀!任何擴(kuò)散模型都能用|ICLR'24
AIGC動態(tài)歡迎閱讀
原標(biāo)題:湯曉鷗帶隊:免調(diào)優(yōu)長視頻生成,可支持512幀!任何擴(kuò)散模型都能用|ICLR'24
關(guān)鍵字:騰訊,噪聲,視頻,時間,方法
文章來源:量子位
內(nèi)容字?jǐn)?shù):4685字
內(nèi)容摘要:
豐色 發(fā)自 凹非寺量子位 | 公眾號 QbitAI想要AI生成更長的視頻?
現(xiàn)在,有人提出了一個效果很不錯的免調(diào)優(yōu)方法,直接就能作用于預(yù)訓(xùn)練好的視頻擴(kuò)散模型。
它最長可支持512幀(假設(shè)幀率按30fps算,理論上那就是能生成約17秒長的作品了)。可應(yīng)用于任何視頻生成模型,比如AnimateDiff、LaVie等等。
以及還能支持多文本生成,比如可以讓駱駝一會跑一會停:
(提示詞:”A camel running on the snow field.” -> “…… standing ……”)
這項成果來自騰訊AI Lab、南洋理工大學(xué)以及港科大,入選了ICLR 2024。
值得一提的是,與此前業(yè)內(nèi)性能最佳的同類方法帶來255%的額外時間成本相比,它僅產(chǎn)生約17%的時間成本,因此直接可以忽略不計。
可以說是成本和性能兩全了~
具體來看看。
通過重新調(diào)度噪聲實現(xiàn)該方法主要解決的是兩個問題:
一是現(xiàn)有視頻生成通常在有限數(shù)量的幀上完成訓(xùn)練,導(dǎo)致推理過程中無法生成高保真長視頻。
二是這些模型還僅支持單文本生成(即使你給了“一個人睡在桌子上,然后看書”這種提示詞,模型也只會響應(yīng)其中一個條件),而應(yīng)
原文鏈接:湯曉鷗帶隊:免調(diào)優(yōu)長視頻生成,可支持512幀!任何擴(kuò)散模型都能用|ICLR'24
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破