北大快手攻克復(fù)雜視頻生成難題!新框架輕松組合各種細(xì)節(jié),代碼將開(kāi)源
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:北大快手攻克復(fù)雜視頻生成難題!新框架輕松組合各種細(xì)節(jié),代碼將開(kāi)源
關(guān)鍵字:快手,視頻,指令,模型,物體
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
楊靈 投稿自 凹非寺量子位 | 公眾號(hào) QbitAI如何生成高難度、指令超復(fù)雜的視頻呢?
北大與快手AI有解了,他們提出新框架VideoTetris,就像拼方塊一樣,輕松組合各種細(xì)節(jié)~
在復(fù)雜視頻生成任務(wù)中,超過(guò)了Pika,Gen-2等一眾商用模型。
這個(gè)框架不僅能夠直接增強(qiáng)現(xiàn)有模型的組合生成,還能夠支持涵蓋多復(fù)雜指令、多場(chǎng)景變更等更高難度的長(zhǎng)視頻生成。
首次定義組合視頻生成在文生圖領(lǐng)域,RPG、Omost等項(xiàng)目已經(jīng)實(shí)現(xiàn)了復(fù)雜的組合式多物體多場(chǎng)景圖片生成。而在文生視頻領(lǐng)域,組合生成自然地?cái)U(kuò)展到時(shí)間和空間維度,這樣的場(chǎng)景還未被廣泛探索。
團(tuán)隊(duì)首次定義了組合視頻生成任務(wù),包括兩個(gè)子任務(wù):1、跟隨復(fù)雜組合指令的視頻生成。2、跟隨遞進(jìn)的組合式多物體指令的長(zhǎng)視頻生成。
目前經(jīng)團(tuán)隊(duì)測(cè)試發(fā)現(xiàn),幾乎所有開(kāi)源模型,包括商用模型在內(nèi)都未能生成正確的視頻。
比如輸入“左邊一個(gè)可愛(ài)的棕色狗狗,右邊一只打盹的貓?jiān)陉?yáng)光下小憩”,結(jié)果生成的都是融合了兩個(gè)物體信息的奇怪視頻。
而使用VideoTetris,生成出的視頻是這樣,成功保留了所有的位置信息和細(xì)節(jié)特征。
在長(zhǎng)視頻生成中,目前的方法支持的可變指令目前還停
原文鏈接:北大快手攻克復(fù)雜視頻生成難題!新框架輕松組合各種細(xì)節(jié),代碼將開(kāi)源
聯(lián)系作者
文章來(lái)源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破