產(chǎn)品名稱:Hallo
產(chǎn)品簡介:Hallo是由復(fù)旦大學(xué)、百度公司、蘇黎世聯(lián)邦理工學(xué)院和學(xué)的研究人員共同提出的一個AI對口型肖像圖像動畫技術(shù),可基于語音音頻輸入來驅(qū)動生成逼真且動態(tài)的肖像圖像視頻。
詳細介紹:
Hallo是什么
Hallo是由復(fù)旦大學(xué)、百度公司、蘇黎世聯(lián)邦理工學(xué)院和學(xué)的研究人員共同提出的一個AI對口型肖像圖像動畫技術(shù),可基于語音音頻輸入來驅(qū)動生成逼真且動態(tài)的肖像圖像視頻。該框架采用了基于擴散的生成模型和分層音頻驅(qū)動視覺合成模塊,提高了音頻與視覺輸出之間的同步精度。Hallo的網(wǎng)絡(luò)架構(gòu)整合了UNet去噪器、時間對齊技術(shù)和參考網(wǎng)絡(luò),以增強動畫的質(zhì)量和真實感,不僅提升了圖像和視頻的質(zhì)量,還顯著增強了唇動同步的精度,并增加了動作的多樣性。

Hallo的功能特色
- 音頻同步動畫:Hallo利用先進的音頻分析技術(shù),將輸入的語音音頻與肖像圖像相結(jié)合,生成動態(tài)的面部動畫。通過精確的唇動同步算法,確保視頻動畫中的嘴唇動作與音頻中的聲音同步,從而創(chuàng)造出逼真的說話效果。
- 面部表情生成:根據(jù)音頻信號中的情感和語調(diào)變化,Hallo能夠自動識別并生成相應(yīng)的面部表情,包括微笑、皺眉、驚訝等表情,使視頻動畫角色的“表演”更加自然和富有情感。
- 頭部姿態(tài)控制:Hallo允許對視頻動畫中的頭部姿態(tài)進行細致的調(diào)整,如頭部的傾斜、轉(zhuǎn)動等,使得視頻動畫能夠更好地反映音頻內(nèi)容的意圖和情感,增強視覺與聽覺的協(xié)調(diào)性。
- 個性化動畫定制:用戶可以根據(jù)不同的應(yīng)用場景和個人特征,對動畫的風格、表情和動作進行定制。Hallo的個性化定制功能支持用戶創(chuàng)造出獨一無二的角色,滿足特定的視覺和情感表達需求。
- 時間一致性維護:Hallo通過時間對齊技術(shù),確保動畫中的動作和表情在時間上流暢過渡,避免突兀和不自然的變化。
- 動作多樣性:除了同步音頻的基本動作外,Hallo還支持生成多樣化的動作和風格。用戶可以根據(jù)需要選擇不同的動作庫,為動畫角色添加更多動態(tài)元素,如手勢、眨眼等,從而豐富視頻的表現(xiàn)力。

Hallo的官網(wǎng)入口
- 官方項目主頁:https://fudan-generative-vision.github.io/hallo/#/
- GitHub代碼庫:https://github.com/fudan-generative-vision/hallo
- Hugging Face模型庫:https://huggingface.co/fudan-generative-ai/hallo
- arXiv技術(shù)論文:https://arxiv.org/abs/2406.08801
Hallo的技術(shù)原理

- 分層音頻驅(qū)動視覺合成:Hallo采用分層的方法來處理音頻和視覺信息。這種分層結(jié)構(gòu)允許模型分別處理嘴唇動作、面部表情和頭部姿態(tài),然后通過自適應(yīng)權(quán)重將這些元素融合在一起。
- 端到端擴散模型:Hallo使用基于擴散的生成模型,一種從潛在空間生成數(shù)據(jù)的方法。在訓(xùn)練階段,數(shù)據(jù)逐漸被加入噪聲,然后在逆過程中去除噪聲以重建清晰的圖像。
- 交叉注意力機制:通過交叉注意力機制,Hallo能夠在音頻特征和視覺特征之間建立聯(lián)系。該機制使得模型能夠集中注意力于與當前音頻輸入最相關(guān)的面部區(qū)域。
- UNet去噪器:Hallo利用基于UNet的去噪器來逐步去除圖像中的噪聲,生成清晰的動畫幀。UNet結(jié)構(gòu)因其在圖像分割任務(wù)中的有效性而聞名,通過跳躍連接使用低層特征圖來提高生成質(zhì)量。
- 時間對齊技術(shù):為了保持動畫在時間上的連貫性,Hallo采用了時間對齊技術(shù),這有助于確保連續(xù)幀之間的平滑過渡和一致性。
- 參考網(wǎng)絡(luò)(ReferenceNet):ReferenceNet用于編碼全局視覺紋理信息,以實現(xiàn)一致且可控的角色動畫,可幫助模型在生成過程中參考現(xiàn)有的圖像,以增強輸出的視覺質(zhì)量。
- 面部和音頻編碼器:Hallo使用預(yù)訓(xùn)練的面部編碼器來提取肖像的身份特征,同時使用音頻特征編碼器(如wav2vec)來將音頻信號轉(zhuǎn)換為可以驅(qū)動動畫的信息。
- 自適應(yīng)權(quán)重調(diào)整:Hallo允許調(diào)整不同視覺組件(如嘴唇、表情、姿態(tài))的權(quán)重,以控制動畫的多樣性和細節(jié)。
- 訓(xùn)練與推理:在訓(xùn)練階段,Hallo通過優(yōu)化面部圖像編碼器和空間交叉注意力模塊的參數(shù)來提高單幀生成能力。在推理階段,模型結(jié)合參考圖像和驅(qū)動音頻來生成動畫視頻序列。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...

粵公網(wǎng)安備 44011502001135號