Text-to-Video 模型已展現出世界模擬器的潛力,這種潛力能革新傳統視覺任務嗎?
原標題:賈佳亞團隊 x Adobe提出GenProp,物體追蹤移除特效樣樣在行
文章來源:AI前線
內容字數:4890字
GenProp:Text-to-Video 模型的視覺任務革新
本文介紹了賈佳亞團隊和 Adobe 團隊合作研發的 GenProp (Generative Video Propagation) 模型,該模型利用視頻生成能力,在傳統視覺任務中展現出顯著優勢,并拓展了這些任務的邊界。
GenProp 的核心優勢:超越傳統感知模型
GenProp 基于視頻生成模型,能夠完整追蹤物體的“副作用”,例如影子和反射,這是傳統感知模型如 SAM 難以實現的。這種生成式大規模預訓練彌補了感知模型在處理復雜場景變化時的不足,例如處理“千變萬化”的影子。
GenProp 在各種視覺任務中的應用
GenProp 不僅在實例追蹤方面表現出色,還在物體移除、視頻補全、物體替換、背景替換、物體插入和視頻外繪等方面展現了強大的能力。它可以移除物體及其副作用(如反射),插入具有合理的物體,進行大幅形狀改變的物體替換,以及編輯特效等,這些都是傳統方法難以實現的。
GenProp 的通用框架和數據策略
GenProp 采用了一個通用的框架,包括選擇性內容編碼器 (SCE) 和圖像到視頻 (I2V) 模型。SCE 保留原始視頻的未改變區域,I2V 模型則生成新的視頻內容。通過調整 Injection Weight,可以控制生成和重建的比例。訓練過程中,利用 Copy & Paste、Mask-and-Fill 和 Color Fill 等合成數據,對模型進行訓練,并采用區域感知損失 (Region-Aware Loss) 來增強模型的編輯能力。
GenProp 的涌現能力和未來展望
GenProp 在沒有 outpainting 數據對訓練的情況下,涌現出了 outpainting 的能力,體現了模型的通用性。該模型的通用框架和數據策略使其能夠處理各種視覺編輯任務,未來有望在更多領域得到應用,推動 Text-to-Video 技術的進一步發展。
總而言之,GenProp 通過結合視頻生成模型的優勢,在解決傳統視覺任務時展現出強大的能力和通用性,為視覺任務的革新提供了新的思路和方法。
聯系作者
文章來源:AI前線
作者微信:
作者簡介:面向AI愛好者、開發者和科學家,提供大模型最新資訊、AI技術分享干貨、一線業界實踐案例,助你全面擁抱AIGC。