北大快手攻克復雜視頻生成難題！新框架輕松組合各種細節，代碼將開源

AIGC動態2年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：北大快手攻克復雜視頻生成難題！新框架輕松組合各種細節，代碼將開源
關鍵字：快手,視頻,指令,模型,物體
文章來源：量子位
內容字數：0字

內容摘要：

楊靈投稿自凹非寺量子位 | 公眾號 QbitAI如何生成高難度、指令超復雜的視頻呢？
北大與快手AI有解了，他們提出新框架VideoTetris，就像拼方塊一樣，輕松組合各種細節~
在復雜視頻生成任務中，超過了Pika，Gen-2等一眾商用模型。
這個框架不僅能夠直接增強現有模型的組合生成，還能夠支持涵蓋多復雜指令、多場景變更等更高難度的長視頻生成。
首次定義組合視頻生成在文生圖領域，RPG、Omost等項目已經實現了復雜的組合式多物體多場景圖片生成。而在文生視頻領域，組合生成自然地擴展到時間和空間維度，這樣的場景還未被廣泛探索。
團隊首次定義了組合視頻生成任務，包括兩個子任務：1、跟隨復雜組合指令的視頻生成。2、跟隨遞進的組合式多物體指令的長視頻生成。
目前經團隊測試發現，幾乎所有開源模型，包括商用模型在內都未能生成正確的視頻。
比如輸入“左邊一個可愛的棕色狗狗，右邊一只打盹的貓在陽光下小憩”，結果生成的都是融合了兩個物體信息的奇怪視頻。
而使用VideoTetris，生成出的視頻是這樣，成功保留了所有的位置信息和細節特征。
在長視頻生成中，目前的方法支持的可變指令目前還停

原文鏈接：北大快手攻克復雜視頻生成難題！新框架輕松組合各種細節，代碼將開源