Magic Mirror,一種zero-shot身份保持視頻生成框架。
原標題:賈佳亞團隊新作MagicMirror:生成身份一致且高質量個性化視頻,效果驚艷!
文章來源:智猩猩GenAI
內容字數:10121字
Magic Mirror: 零樣本身份保持視頻生成框架
本文介紹了Magic Mirror,一個無需微調即可生成身份一致性視頻的新型框架。它解決了現有視頻生成方法在身份一致性和自然動態性之間難以平衡的問題,并克服了數據稀缺的挑戰。
1. 問題與方案
當前視頻生成方法存在以下問題:難以平衡身份一致性和自然動態性;需要針對特定人物進行微調;生成的視頻動態性不足;兩階段方法在長序列生成中缺乏穩定性;現有模型在文本-視頻對齊優化中犧牲了空間保真度;高質量、身份一致的圖像-視頻訓練數據稀缺。Magic Mirror提出了一種單階段框架,通過三個關鍵組件解決這些問題:
身份一致的合成數據初步訓練:利用合成數據進行預訓練,培養模型的穩健身份保持能力。
視頻數據細化訓練:在真實視頻數據上進行微調,確保時序一致性。
CogVideoX框架集成:將模型集成到CogVideoX框架中,利用其強大的視頻生成能力。
2. 核心技術
Magic Mirror的核心技術包括:
條件自適應歸一化(CAN):高效融合身份信息,提供注意力引導和特征分布引導,提升身份模態特征聚合。
雙分支面部特征提取器:同時捕捉高層次身份特征和參考特定的結構信息。
輕量級跨模態適配器:有效融合面部嵌入和文本信息。
兩階段訓練策略:先進行圖像預訓練,再進行視頻微調,提高模型的魯棒性和時間一致性。
數據合成策略:利用身份保留模型生成高質量圖像-視頻對,解決數據稀缺問題。
3. 實驗結果
實驗結果表明,Magic Mirror在身份一致性和自然動態性之間取得了良好平衡。在VBench等基準測試中,其在動態度、文本提示一致性、Inception Score以及身份保持方面均優于現有方法。用戶研究也證實了其在感知質量上的優勢。
4. 模型架構
Magic Mirror采用雙分支框架,分別提取高層次身份特征和面部結構信息。這些特征通過輕量級跨模態適配器與文本和視頻特征融合,并結合CAN進行處理,最終生成身份一致的視頻。
5. 結論
Magic Mirror是一個高效的零樣本身份保持視頻生成框架,它在保持身份一致性的同時,能夠生成高質量、動態自然的視頻,為個性化視頻生成提供了新的途徑。未來工作將關注多身份定制化生成以及對更細粒度屬性的保持。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,深入關注大模型與AI智能體,及時搜羅生成式AI技術產品。