ID-Animator是一種由騰訊光子工作室、中科大及中科院合肥物質科學研究院的科研團隊推出的零樣本(zero-shot)視頻生成技術。它能夠基于單張面部圖像創建個性化視頻,同時保留人物的身份特征,并可根據文本提示調整視頻內容。通過結合預訓練的文本到視頻擴散模型和輕量級面部適配器,ID-Animator實現了高效的視頻生成,無需對特定身份進行額外訓練,從而提高了身份保真度與生成質量。
ID-Animator是什么
ID-Animator是一項創新的零樣本人類視頻生成技術,由來自騰訊光子工作室、中科大和中科院合肥物質科學研究院的專家們共同開發。該技術能夠依據單一參考面部圖像生成個性化視頻,同時確保圖像中的身份特征得以保留。用戶還可以通過文本提示來調整視頻內容,創造出豐富多樣的場景和角色。ID-Animator通過結合預訓練的文本到視頻擴散模型與輕量級面部適配器,達到了高效的視頻生成效果,無需針對特定身份進行額外訓練。
ID-Animator的主要功能
- 角色上下文修改(Recontextualization):ID-Animator能夠根據提供的參考圖像和文本,改變視頻中角色的上下文信息。例如,可以通過文本提示調整角色的發型、服裝和背景,甚至實現特定動作,創造出全新的角色背景故事。
- 年齡與性別調整(Age and Gender Alteration):該模型支持根據需求對視頻中角色的年齡和性別進行調整,以滿足不同風格和內容的需求。例如,可以生成年輕人變老或男生化身女生的視頻。
- 身份特征混合(Identity Mixing):ID-Animator能夠將兩種不同身份的特征進行混合,按不同的比例生成具備綜合特征的視頻,這在創造新角色或混合現實中的人物特征時特別有用。
- 與ControlNet的集成:ID-Animator可以與ControlNet等現有精細條件模塊兼容,通過提供單幀或多幀控制圖像,實現與控制圖像緊密結合的視頻序列生成,這在制作特定動作或場景的視頻時非常有效。
- 社區模型集成:ID-Animator能夠與社區模型(如Civitai上的模型)集成,即使沒有經過這些模型的訓練,依然能夠有效運行,保持面部特征和動態生成的穩定性。
ID-Animator的官網入口
- 官方項目主頁:https://id-animator.github.io/
- arXiv研究論文:https://arxiv.org/abs/2404.15275
- GitHub源代碼:https://github.com/ID-Animator/ID-Animator
ID-Animator的工作原理
- 預訓練的文本到視頻擴散模型:ID-Animator基于一個預訓練的文本到視頻(Text-to-Video, T2V)擴散模型,該模型能夠根據文本提示生成相應的視頻內容。
- 面部適配器(Face Adapter):為了確保生成的視頻與特定身份一致,ID-Animator引入了輕量級的面部適配器,通過學習面部潛在查詢來編碼與身份相關的嵌入信息。
- 身份導向的數據集構建:研究團隊構建了一個專注于身份的數據集,內容包括解耦的人類屬性和動作字幕技術,以及從構建的面部圖像池中提取的面部特征。
- 隨機面部參考訓練方法:ID-Animator采用隨機采樣的面部圖像進行訓練,這種方法有助于將與身份無關的圖像內容與與身份相關的面部特征分離,使適配器專注于學習身份特征。
- 文本與面部特征的融合:ID-Animator結合文本特征與面部特征,通過注意力機制進行融合,以生成符合文本描述且保留身份特征的視頻。
- 生成過程:在生成視頻時,ID-Animator首先接收一張參考面部圖像和相關文本提示。面部適配器將參考圖像的特征編碼為嵌入,然后將這些嵌入與文本特征一起輸入擴散模型,最終生成視頻。
- 優化與訓練:為了提升模型性能,ID-Animator的訓練過程使用隨機面部圖像作為參考,減少參考圖像中與身份無關特征的影響,并通過分類器引導等技術優化視頻生成質量。
- 兼容性與擴展性:ID-Animator設計為與多種預訓練的T2V模型兼容,如AnimateDiff,使其能夠輕松集成到現有系統中,并在不同應用場景中擴展。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...