Hallo3 – 復(fù)旦聯(lián)合百度開源的高動態(tài)與真實感肖像動畫生成框架
Hallo3是復(fù)旦大學(xué)與百度公司聯(lián)合推出的一款基于擴(kuò)散變換器網(wǎng)絡(luò)(Diffusion Transformer Networks)的肖像圖像動畫技術(shù),能夠生成極具動態(tài)感和真實感的視頻。該技術(shù)借助于預(yù)訓(xùn)練的變換器視頻生成模型,成功克服了現(xiàn)有方法在處理非正面視角、動態(tài)對象渲染及沉浸式背景生成過程中的挑戰(zhàn)。
Hallo3是什么
Hallo3由復(fù)旦大學(xué)與百度公司共同開發(fā),采用擴(kuò)散變換器網(wǎng)絡(luò)技術(shù),專注于肖像圖像的動畫處理,能夠生成高度真實與動態(tài)的視頻內(nèi)容。該系統(tǒng)基于經(jīng)過預(yù)訓(xùn)練的變換器視頻生成模型,有效解決了當(dāng)前技術(shù)在非正面視角、動態(tài)對象渲染和背景生成方面的各種難題。Hallo3運用新的視頻骨干網(wǎng)絡(luò),設(shè)計身份參考網(wǎng)絡(luò)以確保視頻序列中面部特征的一致性,并結(jié)合語音音頻條件和幀機(jī)制,實現(xiàn)由音頻驅(qū)動的連續(xù)視頻生成。實驗結(jié)果表明,Hallo3在生成多角度的逼真肖像方面表現(xiàn)卓越,能夠適應(yīng)復(fù)雜的姿勢和動態(tài)場景,創(chuàng)造平滑且真實的動畫效果。
Hallo3的主要功能
- 多視角動畫生成:突破傳統(tǒng)方法的限制,能夠從多種視角(如正面、側(cè)面、俯視或仰視)生成動畫肖像。
- 動態(tài)對象渲染:有效處理肖像周圍的動態(tài)元素,如人物手持物品的自然,增強(qiáng)視頻的真實感。
- 沉浸式背景生成:創(chuàng)建具有動態(tài)效果的背景場景,如篝火或繁忙街道,增強(qiáng)整體的沉浸體驗。
- 身份一致性保持:在視頻序列中保持肖像的身份一致性,確保長時間動畫中面部特征的準(zhǔn)確識別。
- 語音驅(qū)動的動畫:通過語音音頻驅(qū)動面部表情和嘴唇動作,實現(xiàn)高度同步的自然動畫效果。
Hallo3的技術(shù)原理
- 預(yù)訓(xùn)練的變換器視頻生成模型:
- 基礎(chǔ)架構(gòu):CogVideoX模型作為基礎(chǔ)架構(gòu),通過3D變分自編碼器(VAE)壓縮視頻數(shù)據(jù),將潛在變量與文本嵌入結(jié)合,利用專家變換器網(wǎng)絡(luò)進(jìn)行處理。
- 條件機(jī)制:引入文本提示(ctext)、語音音頻條件(caudio)和身份外觀條件(cid)三種條件機(jī)制,通過交叉注意力(cross-attention)和自適應(yīng)層歸一化(adaLN)整合這些信息。
- 身份參考網(wǎng)絡(luò):
- 3D VAE和變換器層:結(jié)合因果3D VAE和42層變換器層的身份參考網(wǎng)絡(luò),從參考圖像中提取身份特征,嵌入去噪潛在代碼中,利用自注意力機(jī)制增強(qiáng)模型對身份信息的表示和長期保持。
- 特征融合:將參考網(wǎng)絡(luò)生成的視覺特征與去噪網(wǎng)絡(luò)特征融合,確保長時間序列中的面部動畫保持一致性和連貫性。
- 語音音頻條件:
- 音頻嵌入:利用wav2vec框架提取音頻特征,為每幀生成特定的音頻嵌入,并通過線性變換層將其轉(zhuǎn)化為適合模型的表示。
- 交叉注意力機(jī)制:在去噪網(wǎng)絡(luò)中,交叉注意力機(jī)制將音頻嵌入與潛在編碼進(jìn)行交互,提升生成輸出的相關(guān)性,確保模型有效捕捉音頻信號。
- 視頻外推:通過將生成視頻的最后幾幀作為后續(xù)片段生成的輸入,利用3D VAE處理幀,實現(xiàn)時間一致的長視頻推理。
- 訓(xùn)練與推理:
- 訓(xùn)練過程:分為兩個階段,第一階段專注于生成具有身份一致性的視頻;第二階段則擴(kuò)展至音頻驅(qū)動的視頻生成,結(jié)合音頻注意力模塊。
- 推理過程:模型根據(jù)參考圖像、驅(qū)動音頻、文本提示和幀進(jìn)行輸入,生成具有身份一致性和嘴唇同步的視頻。
Hallo3的項目地址
- 項目官網(wǎng):https://fudan-generative-vision.github.io/hallo3
- GitHub倉庫:https://github.com/fudan-generative-vision/hallo3
- HuggingFace模型庫:https://huggingface.co/fudan-generative-ai/hallo3
- arXiv技術(shù)論文:https://arxiv.org/pdf/2412.00733
Hallo3的應(yīng)用場景
- 游戲開發(fā):為游戲角色生成動態(tài)肖像動畫,使其表現(xiàn)更為自然,提升玩家的游戲體驗。
- 電影制作:創(chuàng)造逼真的角色動畫,增強(qiáng)電影和動畫的視覺表現(xiàn)力及沉浸感。
- 社交媒體:為用戶提供動態(tài)頭像,使個人資料更加生動有趣,提升社交媒體的個性化體驗。
- 在線教育:生成虛擬講師的動畫,使在線課程更具吸引力,提升學(xué)生的學(xué)習(xí)興趣和參與度。
- 虛擬現(xiàn)實與增強(qiáng)現(xiàn)實:在VR和AR應(yīng)用中創(chuàng)建虛擬角色,提供更為真實的互動體驗,增強(qiáng)用戶的沉浸感。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...