AnyCharV

AnyCharV – 港中文聯合清華等機構推出的角色可控視頻生成框架

AnyCharV是什么

AnyCharV是由香港中文大學、清華大學深圳國際研究生院與香港大學共同開發的角色控制視頻生成框架。該技術能夠將任意參考角像與目標驅動視頻結合，生成高質量的角。AnyCharV采用了兩階段的訓練策略，實現從精細到粗略的引導：第一階段利用細粒度分割掩碼和姿態信息進行自監督合成；第二階段則通過自增強訓練和粗粒度掩碼優化角色細節的保留。在實驗中，AnyCharV表現優異，能夠自然保留角色的外觀細節，并支持復雜的人物與物體交互以及背景融合。此外，AnyCharV還能夠與文本到圖像（T2I）和文本到視頻（T2V）模型生成的內容相結合，展現出強大的泛化能力。

AnyCharV

AnyCharV的主要功能

任意角色與目標場景的合成：能夠將任意指定的角像與目標驅動視頻結合，生成自然且高質量的視頻作品。
高保真角色細節保留：通過自增強訓練和粗粒度掩碼的引導，確保角色的外觀和細節得以保留，避免失真現象。
復雜場景與人-物交互：支持角色在復雜背景下的自然交互，如與物體操作等。
靈活的輸入支持：能夠結合文本到圖像（T2I）和文本到視頻（T2V）模型生成的內容，展現出極強的泛化能力。

AnyCharV的技術原理

第一階段：自監督合成與細粒度引導：此階段利用目標角色的分割掩碼和姿態信息作為條件信號，將參考角色精確合成到目標場景中。引入參考圖像的CLIP特征與ReferenceNet提取的角色外觀特征，確保角色的身份和外觀得以保留，同時對分割掩碼進行強增強，以減少因形狀差異引起的細節丟失。
第二階段：自增強訓練與粗粒度引導：此階段基于生成的視頻進行自增強訓練，使用粗略的邊界框掩碼替代細分割掩碼，從而減少對角色形狀的約束。這樣的處理方式使得模型能夠更好地保留參考角色的細節，并在推理階段生成更自然的視頻。