賈佳亞團隊聯合Adobe提出GenProp，物體追蹤移除特效樣樣在行

AIGC動態4個月前發布機器之心

516 0 0

GenProp 對物體移除、視頻補全、物體替換、背景替換、物體插入、視頻外繪等問題帶來革新。

原標題：賈佳亞團隊聯合Adobe提出GenProp，物體追蹤移除特效樣樣在行
文章來源：機器之心
內容字數：4709字

賈佳亞團隊新作GenProp：賦予文本轉視頻模型世界模擬能力

機器之心AIxiv專欄報道了賈佳亞團隊與Adobe團隊合作的最新研究成果GenProp（Generative Video Propagation），該模型通過一個通用框架，將視頻生成模型轉化為強大的視頻編輯工具，展現了文本轉視頻模型在世界模擬方面的潛力，并革新了傳統視覺任務。

1. GenProp的核心能力：傳播式視頻編輯

GenProp的核心在于其“傳播”（Propagation）能力，能夠將對視頻首幀的修改傳播到整個視頻序列。這不僅限于簡單的物體替換或移除，更能處理復雜的場景，例如移除物體及其影子、反射等“副作用”，以及插入具有的物體（例如行駛的賽車）。傳統方法難以處理這些復雜場景，因為數據標注困難且需要模型對物理規律有深入的理解。

2. 超越傳統感知模型的局限性

與傳統的基于感知的實例追蹤方法（如SAM）相比，GenProp利用其視頻生成能力，完整地追蹤物體的“副作用”，例如影子和反射，彌補了傳統方法在處理復雜場景時的不足。這表明，生成式大規模預訓練模型可能彌補感知模型的一些缺陷。

3. GenProp在多種視頻編輯任務上的應用

GenProp在多種視頻編輯任務上展現了其強大的能力，包括：

物體移除：不僅移除物體本身，還能同時移除其影子和反射等“副作用”。
物體插入：可以插入具有合理的物體。
物體替換：不僅能修改外觀，還能大幅改變物體的形狀。
背景替換：生成的物體能與新背景自然地融合。
視頻外繪（Outpainting）：即使沒有相關數據訓練，也能完成大面積區域的補全。
特效編輯：可以編輯諸如火焰等特效。

4. GenProp的通用框架與數據

GenProp采用了一個通用的框架，包含選擇性內容編碼器（SCE）和圖像到視頻（I2V）模型。SCE負責保留原始視頻未改變區域的內容，而I2V模型負責生成新的視頻內容。通過調整注入權重，可以控制生成和重建的比例。模型訓練使用了Copy & Paste、Mask-and-Fill和Color Fill等多種數據合成技術，雖然沒有涵蓋所有應用場景，但其大規模的數據量使得模型能夠處理各種不同的編輯任務。