視頻編輯最新SOTA!港中文&Adobe等發(fā)布統(tǒng)一視頻生成傳播框架——GenProp
本文設(shè)計(jì)了一種新型的生成視頻傳播框架——GenProp
原標(biāo)題:視頻編輯最新SOTA!港中文&Adobe等發(fā)布統(tǒng)一視頻生成傳播框架——GenProp
文章來(lái)源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):12204字
GenProp: 一種新型生成視頻傳播框架
本文介紹了一種名為GenProp的新型生成視頻傳播框架,該框架利用圖像到視頻(I2V)生成模型的能力,實(shí)現(xiàn)多種視頻編輯任務(wù),例如物體移除、插入和跟蹤等。
1. 問(wèn)題與挑戰(zhàn)
現(xiàn)有的視頻生成模型通常專(zhuān)注于單一任務(wù),且傳統(tǒng)的視頻傳播方法容易受錯(cuò)誤累積影響,缺乏魯棒性和泛化能力。GenProp旨在解決這些問(wèn)題,并克服生成視頻傳播過(guò)程中的三個(gè)關(guān)鍵挑戰(zhàn):真實(shí)性(第一幀變化自然傳播)、一致性(其他區(qū)域與原始視頻一致)、通用性(適用于多種視頻任務(wù))。
2. GenProp框架設(shè)計(jì)
GenProp的核心思想是利用I2V模型將第一幀的編輯傳播到整個(gè)視頻。為了確保編輯的真實(shí)性和一致性,GenProp引入了兩個(gè)關(guān)鍵組件:
- 選擇性?xún)?nèi)容編碼器 (SCE): SCE選擇性地編碼未編輯區(qū)域的內(nèi)容,避免對(duì)已修改區(qū)域的編碼干擾,從而增強(qiáng)未編輯內(nèi)容的保真度。
- 掩碼預(yù)測(cè)解碼器 (MPD): MPD預(yù)測(cè)需要編輯的空間區(qū)域,幫助SCE區(qū)分修改區(qū)域和未修改區(qū)域。
此外,GenProp還設(shè)計(jì)了區(qū)域感知損失函數(shù),平衡編輯區(qū)域和未編輯區(qū)域的損失,并利用合成數(shù)據(jù)進(jìn)行訓(xùn)練,提高模型的泛化能力。合成數(shù)據(jù)通過(guò)對(duì)現(xiàn)有視頻實(shí)例分割數(shù)據(jù)集進(jìn)行增強(qiáng)生成,涵蓋多種視頻編輯任務(wù)。
3. 實(shí)驗(yàn)結(jié)果與分析
GenProp在視頻編輯、物體移除和物體跟蹤任務(wù)上均取得了優(yōu)于現(xiàn)有方法的成果。實(shí)驗(yàn)結(jié)果表明:
- 視頻編輯: GenProp在物體替換、插入和背景替換等任務(wù)中表現(xiàn)出色,尤其是在具有顯著形狀變化的復(fù)雜場(chǎng)景中。
- 物體移除: GenProp能夠有效移除物體及其相關(guān)效果(如陰影、反射),且不需要密集的遮罩注釋。
- 物體跟蹤: GenProp能夠精確跟蹤物體及其相關(guān)效果,即使在物體發(fā)生反射和遮擋的情況下也能保持穩(wěn)定。
定量和定性評(píng)估結(jié)果均證實(shí)了GenProp的優(yōu)越性能。消融實(shí)驗(yàn)也驗(yàn)證了SCE、MPD和區(qū)域感知損失函數(shù)的有效性。
4. 結(jié)論與未來(lái)工作
GenProp提出了一種新穎的生成視頻傳播框架,利用I2V模型實(shí)現(xiàn)了多種視頻編輯任務(wù),并取得了顯著的成果。未來(lái)工作將集中在支持多關(guān)鍵幀編輯和探索更多可支持的視頻任務(wù)上。
(注意:文章開(kāi)頭關(guān)于自動(dòng)駕駛峰會(huì)的預(yù)告與GenProp論文內(nèi)容無(wú)關(guān),已在總結(jié)中忽略。)
聯(lián)系作者
文章來(lái)源:智猩猩GenAI
作者微信:
作者簡(jiǎn)介:智猩猩旗下公眾號(hào)之一,深入關(guān)注大模型與AI智能體,及時(shí)搜羅生成式AI技術(shù)產(chǎn)品。