賈佳亞團(tuán)隊(duì) x Adobe提出GenProp,物體追蹤移除特效樣樣在行
Text-to-Video 模型已展現(xiàn)出世界模擬器的潛力,這種潛力能革新傳統(tǒng)視覺任務(wù)嗎?
原標(biāo)題:賈佳亞團(tuán)隊(duì) x Adobe提出GenProp,物體追蹤移除特效樣樣在行
文章來源:AI前線
內(nèi)容字?jǐn)?shù):4890字
GenProp:Text-to-Video 模型的視覺任務(wù)革新
本文介紹了賈佳亞團(tuán)隊(duì)和 Adobe 團(tuán)隊(duì)合作研發(fā)的 GenProp (Generative Video Propagation) 模型,該模型利用視頻生成能力,在傳統(tǒng)視覺任務(wù)中展現(xiàn)出顯著優(yōu)勢,并拓展了這些任務(wù)的邊界。
GenProp 的核心優(yōu)勢:超越傳統(tǒng)感知模型
GenProp 基于視頻生成模型,能夠完整追蹤物體的“副作用”,例如影子和反射,這是傳統(tǒng)感知模型如 SAM 難以實(shí)現(xiàn)的。這種生成式大規(guī)模預(yù)訓(xùn)練彌補(bǔ)了感知模型在處理復(fù)雜場景變化時的不足,例如處理“千變?nèi)f化”的影子。
GenProp 在各種視覺任務(wù)中的應(yīng)用
GenProp 不僅在實(shí)例追蹤方面表現(xiàn)出色,還在物體移除、視頻補(bǔ)全、物體替換、背景替換、物體插入和視頻外繪等方面展現(xiàn)了強(qiáng)大的能力。它可以移除物體及其副作用(如反射),插入具有合理的物體,進(jìn)行大幅形狀改變的物體替換,以及編輯特效等,這些都是傳統(tǒng)方法難以實(shí)現(xiàn)的。
GenProp 的通用框架和數(shù)據(jù)策略
GenProp 采用了一個通用的框架,包括選擇性內(nèi)容編碼器 (SCE) 和圖像到視頻 (I2V) 模型。SCE 保留原始視頻的未改變區(qū)域,I2V 模型則生成新的視頻內(nèi)容。通過調(diào)整 Injection Weight,可以控制生成和重建的比例。訓(xùn)練過程中,利用 Copy & Paste、Mask-and-Fill 和 Color Fill 等合成數(shù)據(jù),對模型進(jìn)行訓(xùn)練,并采用區(qū)域感知損失 (Region-Aware Loss) 來增強(qiáng)模型的編輯能力。
GenProp 的涌現(xiàn)能力和未來展望
GenProp 在沒有 outpainting 數(shù)據(jù)對訓(xùn)練的情況下,涌現(xiàn)出了 outpainting 的能力,體現(xiàn)了模型的通用性。該模型的通用框架和數(shù)據(jù)策略使其能夠處理各種視覺編輯任務(wù),未來有望在更多領(lǐng)域得到應(yīng)用,推動 Text-to-Video 技術(shù)的進(jìn)一步發(fā)展。
總而言之,GenProp 通過結(jié)合視頻生成模型的優(yōu)勢,在解決傳統(tǒng)視覺任務(wù)時展現(xiàn)出強(qiáng)大的能力和通用性,為視覺任務(wù)的革新提供了新的思路和方法。
聯(lián)系作者
文章來源:AI前線
作者微信:
作者簡介:面向AI愛好者、開發(fā)者和科學(xué)家,提供大模型最新資訊、AI技術(shù)分享干貨、一線業(yè)界實(shí)踐案例,助你全面擁抱AIGC。