Hallo3 – 復旦聯合百度開源的高動態與真實感肖像動畫生成框架
Hallo3是復旦大學與百度公司聯合推出的一款基于擴散變換器網絡(Diffusion Transformer Networks)的肖像圖像動畫技術,能夠生成極具動態感和真實感的視頻。該技術借助于預訓練的變換器視頻生成模型,成功克服了現有方法在處理非正面視角、動態對象渲染及沉浸式背景生成過程中的挑戰。
Hallo3是什么
Hallo3由復旦大學與百度公司共同開發,采用擴散變換器網絡技術,專注于肖像圖像的動畫處理,能夠生成高度真實與動態的視頻內容。該系統基于經過預訓練的變換器視頻生成模型,有效解決了當前技術在非正面視角、動態對象渲染和背景生成方面的各種難題。Hallo3運用新的視頻骨干網絡,設計身份參考網絡以確保視頻序列中面部特征的一致性,并結合語音音頻條件和幀機制,實現由音頻驅動的連續視頻生成。實驗結果表明,Hallo3在生成多角度的逼真肖像方面表現卓越,能夠適應復雜的姿勢和動態場景,創造平滑且真實的動畫效果。
Hallo3的主要功能
- 多視角動畫生成:突破傳統方法的限制,能夠從多種視角(如正面、側面、俯視或仰視)生成動畫肖像。
- 動態對象渲染:有效處理肖像周圍的動態元素,如人物手持物品的自然,增強視頻的真實感。
- 沉浸式背景生成:創建具有動態效果的背景場景,如篝火或繁忙街道,增強整體的沉浸體驗。
- 身份一致性保持:在視頻序列中保持肖像的身份一致性,確保長時間動畫中面部特征的準確識別。
- 語音驅動的動畫:通過語音音頻驅動面部表情和嘴唇動作,實現高度同步的自然動畫效果。
Hallo3的技術原理
- 預訓練的變換器視頻生成模型:
- 基礎架構:CogVideoX模型作為基礎架構,通過3D變分自編碼器(VAE)壓縮視頻數據,將潛在變量與文本嵌入結合,利用專家變換器網絡進行處理。
- 條件機制:引入文本提示(ctext)、語音音頻條件(caudio)和身份外觀條件(cid)三種條件機制,通過交叉注意力(cross-attention)和自適應層歸一化(adaLN)整合這些信息。
- 身份參考網絡:
- 3D VAE和變換器層:結合因果3D VAE和42層變換器層的身份參考網絡,從參考圖像中提取身份特征,嵌入去噪潛在代碼中,利用自注意力機制增強模型對身份信息的表示和長期保持。
- 特征融合:將參考網絡生成的視覺特征與去噪網絡特征融合,確保長時間序列中的面部動畫保持一致性和連貫性。
- 語音音頻條件:
- 音頻嵌入:利用wav2vec框架提取音頻特征,為每幀生成特定的音頻嵌入,并通過線性變換層將其轉化為適合模型的表示。
- 交叉注意力機制:在去噪網絡中,交叉注意力機制將音頻嵌入與潛在編碼進行交互,提升生成輸出的相關性,確保模型有效捕捉音頻信號。
- 視頻外推:通過將生成視頻的最后幾幀作為后續片段生成的輸入,利用3D VAE處理幀,實現時間一致的長視頻推理。
- 訓練與推理:
- 訓練過程:分為兩個階段,第一階段專注于生成具有身份一致性的視頻;第二階段則擴展至音頻驅動的視頻生成,結合音頻注意力模塊。
- 推理過程:模型根據參考圖像、驅動音頻、文本提示和幀進行輸入,生成具有身份一致性和嘴唇同步的視頻。
Hallo3的項目地址
- 項目官網:https://fudan-generative-vision.github.io/hallo3
- GitHub倉庫:https://github.com/fudan-generative-vision/hallo3
- HuggingFace模型庫:https://huggingface.co/fudan-generative-ai/hallo3
- arXiv技術論文:https://arxiv.org/pdf/2412.00733
Hallo3的應用場景
- 游戲開發:為游戲角色生成動態肖像動畫,使其表現更為自然,提升玩家的游戲體驗。
- 電影制作:創造逼真的角色動畫,增強電影和動畫的視覺表現力及沉浸感。
- 社交媒體:為用戶提供動態頭像,使個人資料更加生動有趣,提升社交媒體的個性化體驗。
- 在線教育:生成虛擬講師的動畫,使在線課程更具吸引力,提升學生的學習興趣和參與度。
- 虛擬現實與增強現實:在VR和AR應用中創建虛擬角色,提供更為真實的互動體驗,增強用戶的沉浸感。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...