產(chǎn)品名稱(chēng):Hallo
產(chǎn)品簡(jiǎn)介:Hallo是由復(fù)旦大學(xué)、百度公司、蘇黎世聯(lián)邦理工學(xué)院和學(xué)的研究人員共同提出的一個(gè)AI對(duì)口型肖像圖像動(dòng)畫(huà)技術(shù),可基于語(yǔ)音音頻輸入來(lái)驅(qū)動(dòng)生成逼真且動(dòng)態(tài)的肖像圖像視頻。
詳細(xì)介紹:
Hallo是什么
Hallo是由復(fù)旦大學(xué)、百度公司、蘇黎世聯(lián)邦理工學(xué)院和學(xué)的研究人員共同提出的一個(gè)AI對(duì)口型肖像圖像動(dòng)畫(huà)技術(shù),可基于語(yǔ)音音頻輸入來(lái)驅(qū)動(dòng)生成逼真且動(dòng)態(tài)的肖像圖像視頻。該框架采用了基于擴(kuò)散的生成模型和分層音頻驅(qū)動(dòng)視覺(jué)合成模塊,提高了音頻與視覺(jué)輸出之間的同步精度。Hallo的網(wǎng)絡(luò)架構(gòu)整合了UNet去噪器、時(shí)間對(duì)齊技術(shù)和參考網(wǎng)絡(luò),以增強(qiáng)動(dòng)畫(huà)的質(zhì)量和真實(shí)感,不僅提升了圖像和視頻的質(zhì)量,還顯著增強(qiáng)了唇動(dòng)同步的精度,并增加了動(dòng)作的多樣性。
Hallo的功能特色
- 音頻同步動(dòng)畫(huà):Hallo利用先進(jìn)的音頻分析技術(shù),將輸入的語(yǔ)音音頻與肖像圖像相結(jié)合,生成動(dòng)態(tài)的面部動(dòng)畫(huà)。通過(guò)精確的唇動(dòng)同步算法,確保視頻動(dòng)畫(huà)中的嘴唇動(dòng)作與音頻中的聲音同步,從而創(chuàng)造出逼真的說(shuō)話效果。
- 面部表情生成:根據(jù)音頻信號(hào)中的情感和語(yǔ)調(diào)變化,Hallo能夠自動(dòng)識(shí)別并生成相應(yīng)的面部表情,包括微笑、皺眉、驚訝等表情,使視頻動(dòng)畫(huà)角色的“表演”更加自然和富有情感。
- 頭部姿態(tài)控制:Hallo允許對(duì)視頻動(dòng)畫(huà)中的頭部姿態(tài)進(jìn)行細(xì)致的調(diào)整,如頭部的傾斜、轉(zhuǎn)動(dòng)等,使得視頻動(dòng)畫(huà)能夠更好地反映音頻內(nèi)容的意圖和情感,增強(qiáng)視覺(jué)與聽(tīng)覺(jué)的協(xié)調(diào)性。
- 個(gè)性化動(dòng)畫(huà)定制:用戶可以根據(jù)不同的應(yīng)用場(chǎng)景和個(gè)人特征,對(duì)動(dòng)畫(huà)的風(fēng)格、表情和動(dòng)作進(jìn)行定制。Hallo的個(gè)性化定制功能支持用戶創(chuàng)造出獨(dú)一無(wú)二的角色,滿足特定的視覺(jué)和情感表達(dá)需求。
- 時(shí)間一致性維護(hù):Hallo通過(guò)時(shí)間對(duì)齊技術(shù),確保動(dòng)畫(huà)中的動(dòng)作和表情在時(shí)間上流暢過(guò)渡,避免突兀和不自然的變化。
- 動(dòng)作多樣性:除了同步音頻的基本動(dòng)作外,Hallo還支持生成多樣化的動(dòng)作和風(fēng)格。用戶可以根據(jù)需要選擇不同的動(dòng)作庫(kù),為動(dòng)畫(huà)角色添加更多動(dòng)態(tài)元素,如手勢(shì)、眨眼等,從而豐富視頻的表現(xiàn)力。
Hallo的官網(wǎng)入口
- 官方項(xiàng)目主頁(yè):https://fudan-generative-vision.github.io/hallo/#/
- GitHub代碼庫(kù):https://github.com/fudan-generative-vision/hallo
- Hugging Face模型庫(kù):https://huggingface.co/fudan-generative-ai/hallo
- arXiv技術(shù)論文:https://arxiv.org/abs/2406.08801
Hallo的技術(shù)原理
- 分層音頻驅(qū)動(dòng)視覺(jué)合成:Hallo采用分層的方法來(lái)處理音頻和視覺(jué)信息。這種分層結(jié)構(gòu)允許模型分別處理嘴唇動(dòng)作、面部表情和頭部姿態(tài),然后通過(guò)自適應(yīng)權(quán)重將這些元素融合在一起。
- 端到端擴(kuò)散模型:Hallo使用基于擴(kuò)散的生成模型,一種從潛在空間生成數(shù)據(jù)的方法。在訓(xùn)練階段,數(shù)據(jù)逐漸被加入噪聲,然后在逆過(guò)程中去除噪聲以重建清晰的圖像。
- 交叉注意力機(jī)制:通過(guò)交叉注意力機(jī)制,Hallo能夠在音頻特征和視覺(jué)特征之間建立聯(lián)系。該機(jī)制使得模型能夠集中注意力于與當(dāng)前音頻輸入最相關(guān)的面部區(qū)域。
- UNet去噪器:Hallo利用基于UNet的去噪器來(lái)逐步去除圖像中的噪聲,生成清晰的動(dòng)畫(huà)幀。UNet結(jié)構(gòu)因其在圖像分割任務(wù)中的有效性而聞名,通過(guò)跳躍連接使用低層特征圖來(lái)提高生成質(zhì)量。
- 時(shí)間對(duì)齊技術(shù):為了保持動(dòng)畫(huà)在時(shí)間上的連貫性,Hallo采用了時(shí)間對(duì)齊技術(shù),這有助于確保連續(xù)幀之間的平滑過(guò)渡和一致性。
- 參考網(wǎng)絡(luò)(ReferenceNet):ReferenceNet用于編碼全局視覺(jué)紋理信息,以實(shí)現(xiàn)一致且可控的角色動(dòng)畫(huà),可幫助模型在生成過(guò)程中參考現(xiàn)有的圖像,以增強(qiáng)輸出的視覺(jué)質(zhì)量。
- 面部和音頻編碼器:Hallo使用預(yù)訓(xùn)練的面部編碼器來(lái)提取肖像的身份特征,同時(shí)使用音頻特征編碼器(如wav2vec)來(lái)將音頻信號(hào)轉(zhuǎn)換為可以驅(qū)動(dòng)動(dòng)畫(huà)的信息。
- 自適應(yīng)權(quán)重調(diào)整:Hallo允許調(diào)整不同視覺(jué)組件(如嘴唇、表情、姿態(tài))的權(quán)重,以控制動(dòng)畫(huà)的多樣性和細(xì)節(jié)。
- 訓(xùn)練與推理:在訓(xùn)練階段,Hallo通過(guò)優(yōu)化面部圖像編碼器和空間交叉注意力模塊的參數(shù)來(lái)提高單幀生成能力。在推理階段,模型結(jié)合參考圖像和驅(qū)動(dòng)音頻來(lái)生成動(dòng)畫(huà)視頻序列。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無(wú)評(píng)論...