Hallo3

Hallo3 – 復(fù)旦聯(lián)合百度開源的高動態(tài)與真實感肖像動畫生成框架

Hallo3是復(fù)旦大學(xué)與百度公司聯(lián)合推出的一款基于擴(kuò)散變換器網(wǎng)絡(luò)（Diffusion Transformer Networks）的肖像圖像動畫技術(shù)，能夠生成極具動態(tài)感和真實感的視頻。該技術(shù)借助于預(yù)訓(xùn)練的變換器視頻生成模型，成功克服了現(xiàn)有方法在處理非正面視角、動態(tài)對象渲染及沉浸式背景生成過程中的挑戰(zhàn)。

Hallo3是什么

Hallo3由復(fù)旦大學(xué)與百度公司共同開發(fā)，采用擴(kuò)散變換器網(wǎng)絡(luò)技術(shù)，專注于肖像圖像的動畫處理，能夠生成高度真實與動態(tài)的視頻內(nèi)容。該系統(tǒng)基于經(jīng)過預(yù)訓(xùn)練的變換器視頻生成模型，有效解決了當(dāng)前技術(shù)在非正面視角、動態(tài)對象渲染和背景生成方面的各種難題。Hallo3運用新的視頻骨干網(wǎng)絡(luò)，設(shè)計身份參考網(wǎng)絡(luò)以確保視頻序列中面部特征的一致性，并結(jié)合語音音頻條件和幀機(jī)制，實現(xiàn)由音頻驅(qū)動的連續(xù)視頻生成。實驗結(jié)果表明，Hallo3在生成多角度的逼真肖像方面表現(xiàn)卓越，能夠適應(yīng)復(fù)雜的姿勢和動態(tài)場景，創(chuàng)造平滑且真實的動畫效果。

Hallo3

Hallo3的主要功能

多視角動畫生成：突破傳統(tǒng)方法的限制，能夠從多種視角（如正面、側(cè)面、俯視或仰視）生成動畫肖像。
動態(tài)對象渲染：有效處理肖像周圍的動態(tài)元素，如人物手持物品的自然，增強(qiáng)視頻的真實感。
沉浸式背景生成：創(chuàng)建具有動態(tài)效果的背景場景，如篝火或繁忙街道，增強(qiáng)整體的沉浸體驗。
身份一致性保持：在視頻序列中保持肖像的身份一致性，確保長時間動畫中面部特征的準(zhǔn)確識別。
語音驅(qū)動的動畫：通過語音音頻驅(qū)動面部表情和嘴唇動作，實現(xiàn)高度同步的自然動畫效果。

Hallo3的技術(shù)原理

預(yù)訓(xùn)練的變換器視頻生成模型：
- 基礎(chǔ)架構(gòu)：CogVideoX模型作為基礎(chǔ)架構(gòu)，通過3D變分自編碼器（VAE）壓縮視頻數(shù)據(jù)，將潛在變量與文本嵌入結(jié)合，利用專家變換器網(wǎng)絡(luò)進(jìn)行處理。
- 條件機(jī)制：引入文本提示（ctext）、語音音頻條件（caudio）和身份外觀條件（cid）三種條件機(jī)制，通過交叉注意力（cross-attention）和自適應(yīng)層歸一化（adaLN）整合這些信息。
身份參考網(wǎng)絡(luò)：
- 3D VAE和變換器層：結(jié)合因果3D VAE和42層變換器層的身份參考網(wǎng)絡(luò)，從參考圖像中提取身份特征，嵌入去噪潛在代碼中，利用自注意力機(jī)制增強(qiáng)模型對身份信息的表示和長期保持。
- 特征融合：將參考網(wǎng)絡(luò)生成的視覺特征與去噪網(wǎng)絡(luò)特征融合，確保長時間序列中的面部動畫保持一致性和連貫性。
語音音頻條件：
- 音頻嵌入：利用wav2vec框架提取音頻特征，為每幀生成特定的音頻嵌入，并通過線性變換層將其轉(zhuǎn)化為適合模型的表示。
- 交叉注意力機(jī)制：在去噪網(wǎng)絡(luò)中，交叉注意力機(jī)制將音頻嵌入與潛在編碼進(jìn)行交互，提升生成輸出的相關(guān)性，確保模型有效捕捉音頻信號。
視頻外推：通過將生成視頻的最后幾幀作為后續(xù)片段生成的輸入，利用3D VAE處理幀，實現(xiàn)時間一致的長視頻推理。
訓(xùn)練與推理：
- 訓(xùn)練過程：分為兩個階段，第一階段專注于生成具有身份一致性的視頻；第二階段則擴(kuò)展至音頻驅(qū)動的視頻生成，結(jié)合音頻注意力模塊。
- 推理過程：模型根據(jù)參考圖像、驅(qū)動音頻、文本提示和幀進(jìn)行輸入，生成具有身份一致性和嘴唇同步的視頻。

Hallo3的項目地址

項目官網(wǎng)：https://fudan-generative-vision.github.io/hallo3
GitHub倉庫：https://github.com/fudan-generative-vision/hallo3
HuggingFace模型庫：https://huggingface.co/fudan-generative-ai/hallo3
arXiv技術(shù)論文：https://arxiv.org/pdf/2412.00733

Hallo3的應(yīng)用場景

游戲開發(fā)：為游戲角色生成動態(tài)肖像動畫，使其表現(xiàn)更為自然，提升玩家的游戲體驗。
電影制作：創(chuàng)造逼真的角色動畫，增強(qiáng)電影和動畫的視覺表現(xiàn)力及沉浸感。
社交媒體：為用戶提供動態(tài)頭像，使個人資料更加生動有趣，提升社交媒體的個性化體驗。
在線教育：生成虛擬講師的動畫，使在線課程更具吸引力，提升學(xué)生的學(xué)習(xí)興趣和參與度。
虛擬現(xiàn)實與增強(qiáng)現(xiàn)實：在VR和AR應(yīng)用中創(chuàng)建虛擬角色，提供更為真實的互動體驗，增強(qiáng)用戶的沉浸感。

閱讀原文