GenProp 對物體移除、視頻補全、物體替換、背景替換、物體插入、視頻外繪等問題帶來革新。
原標題:賈佳亞團隊聯合Adobe提出GenProp,物體追蹤移除特效樣樣在行
文章來源:機器之心
內容字數:4709字
賈佳亞團隊新作GenProp:賦予文本轉視頻模型世界模擬能力
機器之心AIxiv專欄報道了賈佳亞團隊與Adobe團隊合作的最新研究成果GenProp(Generative Video Propagation),該模型通過一個通用框架,將視頻生成模型轉化為強大的視頻編輯工具,展現了文本轉視頻模型在世界模擬方面的潛力,并革新了傳統視覺任務。
1. GenProp的核心能力:傳播式視頻編輯
GenProp的核心在于其“傳播”(Propagation)能力,能夠將對視頻首幀的修改傳播到整個視頻序列。這不僅限于簡單的物體替換或移除,更能處理復雜的場景,例如移除物體及其影子、反射等“副作用”,以及插入具有的物體(例如行駛的賽車)。傳統方法難以處理這些復雜場景,因為數據標注困難且需要模型對物理規律有深入的理解。
2. 超越傳統感知模型的局限性
與傳統的基于感知的實例追蹤方法(如SAM)相比,GenProp利用其視頻生成能力,完整地追蹤物體的“副作用”,例如影子和反射,彌補了傳統方法在處理復雜場景時的不足。這表明,生成式大規模預訓練模型可能彌補感知模型的一些缺陷。
3. GenProp在多種視頻編輯任務上的應用
GenProp在多種視頻編輯任務上展現了其強大的能力,包括:
- 物體移除:不僅移除物體本身,還能同時移除其影子和反射等“副作用”。
- 物體插入:可以插入具有合理的物體。
- 物體替換:不僅能修改外觀,還能大幅改變物體的形狀。
- 背景替換:生成的物體能與新背景自然地融合。
- 視頻外繪(Outpainting):即使沒有相關數據訓練,也能完成大面積區域的補全。
- 特效編輯:可以編輯諸如火焰等特效。
4. GenProp的通用框架與數據
GenProp采用了一個通用的框架,包含選擇性內容編碼器(SCE)和圖像到視頻(I2V)模型。SCE負責保留原始視頻未改變區域的內容,而I2V模型負責生成新的視頻內容。通過調整注入權重,可以控制生成和重建的比例。模型訓練使用了Copy & Paste、Mask-and-Fill和Color Fill等多種數據合成技術,雖然沒有涵蓋所有應用場景,但其大規模的數據量使得模型能夠處理各種不同的編輯任務。
5. 區域感知損失與注意力機制
GenProp引入了區域感知損失,限制了SCE對編輯區域的影響,幫助模型區分編輯區域和原始內容。注意力圖的可視化結果也表明,模型的注意力集中在需要編輯的區域,引導I2V模型生成新的內容。
6. 總結
GenProp通過一個通用的框架,將視頻生成模型轉化為強大的視頻編輯工具,在多種視頻編輯任務上展現了其優越性,并展現了文本轉視頻模型在世界模擬方面的巨大潛力。其工作不僅在技術上有所突破,也為未來的視頻編輯技術發展指明了新的方向。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺