Hallo2是一款由復(fù)旦大學(xué)、百度公司與合開發(fā)的音頻驅(qū)動(dòng)視頻生成模型。該模型能夠結(jié)合單張參考圖片和數(shù)分鐘的音頻輸入,利用可選的文本提示調(diào)節(jié)肖像的表情,并生成與音頻同步的高分辨率4K視頻。
Hallo2是什么
Hallo2是由復(fù)旦大學(xué)、百度公司和學(xué)共同研發(fā)的前沿音頻驅(qū)動(dòng)視頻生成模型。它能夠?qū)⒁粡垍⒖紙D片與幾分鐘的音頻輸入相結(jié)合,并通過可選的文本提示來(lái)調(diào)節(jié)肖像表情,從而生成與音頻內(nèi)容緊密同步的高分辨率4K視頻。該模型采用了先進(jìn)的數(shù)據(jù)增強(qiáng)技術(shù),如補(bǔ)丁下降和高斯噪聲,以增強(qiáng)視頻的長(zhǎng)期視覺一致性和時(shí)間連貫性。Hallo2利用潛在代碼的矢量量化和時(shí)間對(duì)齊技術(shù),生成高質(zhì)量的視頻,并引入語(yǔ)義文本標(biāo)簽作為條件輸入,提升動(dòng)畫的可控性和多樣性。在多個(gè)公開數(shù)據(jù)集上進(jìn)行的廣泛實(shí)驗(yàn)表明,Hallo2在生成長(zhǎng)時(shí)間、高分辨率以及豐富且可控的內(nèi)容方面表現(xiàn)出色。
Hallo2的主要功能
- 長(zhǎng)時(shí)視頻生成:支持生成最長(zhǎng)可達(dá)一小時(shí)的視頻,有效解決外觀漂移和時(shí)間偽影的問題。
- 高分辨率輸出:實(shí)現(xiàn)4K分辨率的肖像視頻生成,確保細(xì)節(jié)清晰可見。
- 音頻驅(qū)動(dòng)動(dòng)畫:根據(jù)音頻輸入驅(qū)動(dòng)肖像動(dòng)畫,確保口型和表情的完美同步。
- 文本提示調(diào)節(jié):通過文本提示來(lái)調(diào)節(jié)和細(xì)化肖像的表情,增加動(dòng)畫的多樣性和表現(xiàn)力。
- 數(shù)據(jù)增強(qiáng)技術(shù):利用補(bǔ)丁下降和高斯噪聲增強(qiáng)技術(shù),提高視頻的長(zhǎng)期視覺一致性和時(shí)間連貫性。
Hallo2的技術(shù)原理
- 補(bǔ)丁下降技術(shù)(Patch-Drop Augmentation):隨機(jī)丟棄條件幀中的部分圖像塊,減少前一幀對(duì)后續(xù)幀外觀的影響,保持視頻生成中的視覺一致性。
- 高斯噪聲增強(qiáng):在補(bǔ)丁下降的基礎(chǔ)上加入高斯噪聲,進(jìn)一步增強(qiáng)模型對(duì)參考圖像外觀的依賴,同時(shí)保留信息,減少偽影和失真。
- 向量量化生成對(duì)抗網(wǎng)絡(luò)(VQGAN):通過向量量化潛在代碼和時(shí)間對(duì)齊技術(shù),Hallo2在時(shí)間維度上維持連貫性,生成高質(zhì)量的4K視頻。
- 語(yǔ)義文本標(biāo)簽:引入可調(diào)的語(yǔ)義文本標(biāo)簽作為條件輸入,使模型能夠根據(jù)文本提示生成特定表情和動(dòng)作,從而提高生成內(nèi)容的可控性。
- 跨注意力機(jī)制(Cross-Attention Mechanism):模型能夠在去噪過程中有效整合條件,例如音頻特征和文本嵌入,從而生成與條件輸入一致的圖像。
Hallo2的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):fudan-generative-vision.github.io/hallo2
- GitHub倉(cāng)庫(kù):https://github.com/fudan-generative-vision/hallo2
- HuggingFace模型庫(kù):https://huggingface.co/fudan-generative-ai/hallo2
- arXiv技術(shù)論文:https://arxiv.org/pdf/2410.07718v1
Hallo2的應(yīng)用場(chǎng)景
- 電影和視頻制作:在電影制作中,Hallo2能夠生成或增強(qiáng)角色的面部表情和口型,尤其適用于大量虛擬角色或特效的科幻與動(dòng)畫影片。
- 虛擬助手和數(shù)字人:在客服、教育和娛樂等領(lǐng)域,Hallo2能夠創(chuàng)建真實(shí)感極強(qiáng)的虛擬助手或數(shù)字人,提供更加自然和吸引人的交互體驗(yàn)。
- 游戲開發(fā):游戲開發(fā)者可以利用Hallo2生成高度真實(shí)感的角色動(dòng)畫,提升游戲的沉浸感及用戶體驗(yàn)。
- 社交媒體和內(nèi)容創(chuàng)作:內(nèi)容創(chuàng)作者可借助Hallo2制作動(dòng)態(tài)肖像視頻,在社交媒體平臺(tái)上增加內(nèi)容的吸引力和互動(dòng)性。
- 新聞和廣播:Hallo2可以生成新聞主播的動(dòng)畫形象,支持多語(yǔ)言播報(bào),快速生成不同語(yǔ)言的口型和表情。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無(wú)評(píng)論...