ID-Animator是一種由騰訊光子工作室、中科大及中科院合肥物質(zhì)科學研究院的科研團隊推出的零樣本(zero-shot)視頻生成技術(shù)。它能夠基于單張面部圖像創(chuàng)建個性化視頻,同時保留人物的身份特征,并可根據(jù)文本提示調(diào)整視頻內(nèi)容。通過結(jié)合預訓練的文本到視頻擴散模型和輕量級面部適配器,ID-Animator實現(xiàn)了高效的視頻生成,無需對特定身份進行額外訓練,從而提高了身份保真度與生成質(zhì)量。
ID-Animator是什么
ID-Animator是一項創(chuàng)新的零樣本人類視頻生成技術(shù),由來自騰訊光子工作室、中科大和中科院合肥物質(zhì)科學研究院的專家們共同開發(fā)。該技術(shù)能夠依據(jù)單一參考面部圖像生成個性化視頻,同時確保圖像中的身份特征得以保留。用戶還可以通過文本提示來調(diào)整視頻內(nèi)容,創(chuàng)造出豐富多樣的場景和角色。ID-Animator通過結(jié)合預訓練的文本到視頻擴散模型與輕量級面部適配器,達到了高效的視頻生成效果,無需針對特定身份進行額外訓練。
ID-Animator的主要功能
- 角色上下文修改(Recontextualization):ID-Animator能夠根據(jù)提供的參考圖像和文本,改變視頻中角色的上下文信息。例如,可以通過文本提示調(diào)整角色的發(fā)型、服裝和背景,甚至實現(xiàn)特定動作,創(chuàng)造出全新的角色背景故事。
- 年齡與性別調(diào)整(Age and Gender Alteration):該模型支持根據(jù)需求對視頻中角色的年齡和性別進行調(diào)整,以滿足不同風格和內(nèi)容的需求。例如,可以生成年輕人變老或男生化身女生的視頻。
- 身份特征混合(Identity Mixing):ID-Animator能夠?qū)煞N不同身份的特征進行混合,按不同的比例生成具備綜合特征的視頻,這在創(chuàng)造新角色或混合現(xiàn)實中的人物特征時特別有用。
- 與ControlNet的集成:ID-Animator可以與ControlNet等現(xiàn)有精細條件模塊兼容,通過提供單幀或多幀控制圖像,實現(xiàn)與控制圖像緊密結(jié)合的視頻序列生成,這在制作特定動作或場景的視頻時非常有效。
- 社區(qū)模型集成:ID-Animator能夠與社區(qū)模型(如Civitai上的模型)集成,即使沒有經(jīng)過這些模型的訓練,依然能夠有效運行,保持面部特征和動態(tài)生成的穩(wěn)定性。
ID-Animator的官網(wǎng)入口
- 官方項目主頁:https://id-animator.github.io/
- arXiv研究論文:https://arxiv.org/abs/2404.15275
- GitHub源代碼:https://github.com/ID-Animator/ID-Animator
ID-Animator的工作原理
- 預訓練的文本到視頻擴散模型:ID-Animator基于一個預訓練的文本到視頻(Text-to-Video, T2V)擴散模型,該模型能夠根據(jù)文本提示生成相應的視頻內(nèi)容。
- 面部適配器(Face Adapter):為了確保生成的視頻與特定身份一致,ID-Animator引入了輕量級的面部適配器,通過學習面部潛在查詢來編碼與身份相關(guān)的嵌入信息。
- 身份導向的數(shù)據(jù)集構(gòu)建:研究團隊構(gòu)建了一個專注于身份的數(shù)據(jù)集,內(nèi)容包括解耦的人類屬性和動作字幕技術(shù),以及從構(gòu)建的面部圖像池中提取的面部特征。
- 隨機面部參考訓練方法:ID-Animator采用隨機采樣的面部圖像進行訓練,這種方法有助于將與身份無關(guān)的圖像內(nèi)容與與身份相關(guān)的面部特征分離,使適配器專注于學習身份特征。
- 文本與面部特征的融合:ID-Animator結(jié)合文本特征與面部特征,通過注意力機制進行融合,以生成符合文本描述且保留身份特征的視頻。
- 生成過程:在生成視頻時,ID-Animator首先接收一張參考面部圖像和相關(guān)文本提示。面部適配器將參考圖像的特征編碼為嵌入,然后將這些嵌入與文本特征一起輸入擴散模型,最終生成視頻。
- 優(yōu)化與訓練:為了提升模型性能,ID-Animator的訓練過程使用隨機面部圖像作為參考,減少參考圖像中與身份無關(guān)特征的影響,并通過分類器引導等技術(shù)優(yōu)化視頻生成質(zhì)量。
- 兼容性與擴展性:ID-Animator設計為與多種預訓練的T2V模型兼容,如AnimateDiff,使其能夠輕松集成到現(xiàn)有系統(tǒng)中,并在不同應用場景中擴展。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...