賈佳亞團(tuán)隊(duì)聯(lián)合Adobe提出GenProp,物體追蹤移除特效樣樣在行
GenProp 對(duì)物體移除、視頻補(bǔ)全、物體替換、背景替換、物體插入、視頻外繪等問(wèn)題帶來(lái)革新。
原標(biāo)題:賈佳亞團(tuán)隊(duì)聯(lián)合Adobe提出GenProp,物體追蹤移除特效樣樣在行
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):4709字
賈佳亞團(tuán)隊(duì)新作GenProp:賦予文本轉(zhuǎn)視頻模型世界模擬能力
機(jī)器之心AIxiv專欄報(bào)道了賈佳亞團(tuán)隊(duì)與Adobe團(tuán)隊(duì)合作的最新研究成果GenProp(Generative Video Propagation),該模型通過(guò)一個(gè)通用框架,將視頻生成模型轉(zhuǎn)化為強(qiáng)大的視頻編輯工具,展現(xiàn)了文本轉(zhuǎn)視頻模型在世界模擬方面的潛力,并革新了傳統(tǒng)視覺(jué)任務(wù)。
1. GenProp的核心能力:傳播式視頻編輯
GenProp的核心在于其“傳播”(Propagation)能力,能夠?qū)?duì)視頻首幀的修改傳播到整個(gè)視頻序列。這不僅限于簡(jiǎn)單的物體替換或移除,更能處理復(fù)雜的場(chǎng)景,例如移除物體及其影子、反射等“副作用”,以及插入具有的物體(例如行駛的賽車)。傳統(tǒng)方法難以處理這些復(fù)雜場(chǎng)景,因?yàn)閿?shù)據(jù)標(biāo)注困難且需要模型對(duì)物理規(guī)律有深入的理解。
2. 超越傳統(tǒng)感知模型的局限性
與傳統(tǒng)的基于感知的實(shí)例追蹤方法(如SAM)相比,GenProp利用其視頻生成能力,完整地追蹤物體的“副作用”,例如影子和反射,彌補(bǔ)了傳統(tǒng)方法在處理復(fù)雜場(chǎng)景時(shí)的不足。這表明,生成式大規(guī)模預(yù)訓(xùn)練模型可能彌補(bǔ)感知模型的一些缺陷。
3. GenProp在多種視頻編輯任務(wù)上的應(yīng)用
GenProp在多種視頻編輯任務(wù)上展現(xiàn)了其強(qiáng)大的能力,包括:
- 物體移除:不僅移除物體本身,還能同時(shí)移除其影子和反射等“副作用”。
- 物體插入:可以插入具有合理的物體。
- 物體替換:不僅能修改外觀,還能大幅改變物體的形狀。
- 背景替換:生成的物體能與新背景自然地融合。
- 視頻外繪(Outpainting):即使沒(méi)有相關(guān)數(shù)據(jù)訓(xùn)練,也能完成大面積區(qū)域的補(bǔ)全。
- 特效編輯:可以編輯諸如火焰等特效。
4. GenProp的通用框架與數(shù)據(jù)
GenProp采用了一個(gè)通用的框架,包含選擇性內(nèi)容編碼器(SCE)和圖像到視頻(I2V)模型。SCE負(fù)責(zé)保留原始視頻未改變區(qū)域的內(nèi)容,而I2V模型負(fù)責(zé)生成新的視頻內(nèi)容。通過(guò)調(diào)整注入權(quán)重,可以控制生成和重建的比例。模型訓(xùn)練使用了Copy & Paste、Mask-and-Fill和Color Fill等多種數(shù)據(jù)合成技術(shù),雖然沒(méi)有涵蓋所有應(yīng)用場(chǎng)景,但其大規(guī)模的數(shù)據(jù)量使得模型能夠處理各種不同的編輯任務(wù)。
5. 區(qū)域感知損失與注意力機(jī)制
GenProp引入了區(qū)域感知損失,限制了SCE對(duì)編輯區(qū)域的影響,幫助模型區(qū)分編輯區(qū)域和原始內(nèi)容。注意力圖的可視化結(jié)果也表明,模型的注意力集中在需要編輯的區(qū)域,引導(dǎo)I2V模型生成新的內(nèi)容。
6. 總結(jié)
GenProp通過(guò)一個(gè)通用的框架,將視頻生成模型轉(zhuǎn)化為強(qiáng)大的視頻編輯工具,在多種視頻編輯任務(wù)上展現(xiàn)了其優(yōu)越性,并展現(xiàn)了文本轉(zhuǎn)視頻模型在世界模擬方面的巨大潛力。其工作不僅在技術(shù)上有所突破,也為未來(lái)的視頻編輯技術(shù)發(fā)展指明了新的方向。
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)