Hallo

AI工具1年前 (2024)發(fā)布 AI工具集

產(chǎn)品名稱：Hallo
產(chǎn)品簡介：Hallo是由復(fù)旦大學(xué)、百度公司、蘇黎世聯(lián)邦理工學(xué)院和學(xué)的研究人員共同提出的一個AI對口型肖像圖像動畫技術(shù)，可基于語音音頻輸入來驅(qū)動生成逼真且動態(tài)的肖像圖像視頻。
詳細介紹：

Hallo是什么

Hallo是由復(fù)旦大學(xué)、百度公司、蘇黎世聯(lián)邦理工學(xué)院和學(xué)的研究人員共同提出的一個AI對口型肖像圖像動畫技術(shù)，可基于語音音頻輸入來驅(qū)動生成逼真且動態(tài)的肖像圖像視頻。該框架采用了基于擴散的生成模型和分層音頻驅(qū)動視覺合成模塊，提高了音頻與視覺輸出之間的同步精度。Hallo的網(wǎng)絡(luò)架構(gòu)整合了UNet去噪器、時間對齊技術(shù)和參考網(wǎng)絡(luò)，以增強動畫的質(zhì)量和真實感，不僅提升了圖像和視頻的質(zhì)量，還顯著增強了唇動同步的精度，并增加了動作的多樣性。

Hallo

Hallo的功能特色

音頻同步動畫：Hallo利用先進的音頻分析技術(shù)，將輸入的語音音頻與肖像圖像相結(jié)合，生成動態(tài)的面部動畫。通過精確的唇動同步算法，確保視頻動畫中的嘴唇動作與音頻中的聲音同步，從而創(chuàng)造出逼真的說話效果。
面部表情生成：根據(jù)音頻信號中的情感和語調(diào)變化，Hallo能夠自動識別并生成相應(yīng)的面部表情，包括微笑、皺眉、驚訝等表情，使視頻動畫角色的“表演”更加自然和富有情感。
頭部姿態(tài)控制：Hallo允許對視頻動畫中的頭部姿態(tài)進行細致的調(diào)整，如頭部的傾斜、轉(zhuǎn)動等，使得視頻動畫能夠更好地反映音頻內(nèi)容的意圖和情感，增強視覺與聽覺的協(xié)調(diào)性。
個性化動畫定制：用戶可以根據(jù)不同的應(yīng)用場景和個人特征，對動畫的風格、表情和動作進行定制。Hallo的個性化定制功能支持用戶創(chuàng)造出獨一無二的角色，滿足特定的視覺和情感表達需求。
時間一致性維護：Hallo通過時間對齊技術(shù)，確保動畫中的動作和表情在時間上流暢過渡，避免突兀和不自然的變化。
動作多樣性：除了同步音頻的基本動作外，Hallo還支持生成多樣化的動作和風格。用戶可以根據(jù)需要選擇不同的動作庫，為動畫角色添加更多動態(tài)元素，如手勢、眨眼等，從而豐富視頻的表現(xiàn)力。

Hallo

Hallo的官網(wǎng)入口

官方項目主頁：https://fudan-generative-vision.github.io/hallo/#/
GitHub代碼庫：https://github.com/fudan-generative-vision/hallo
Hugging Face模型庫：https://huggingface.co/fudan-generative-ai/hallo
arXiv技術(shù)論文：https://arxiv.org/abs/2406.08801

Hallo的技術(shù)原理

Hallo

分層音頻驅(qū)動視覺合成：Hallo采用分層的方法來處理音頻和視覺信息。這種分層結(jié)構(gòu)允許模型分別處理嘴唇動作、面部表情和頭部姿態(tài)，然后通過自適應(yīng)權(quán)重將這些元素融合在一起。
端到端擴散模型：Hallo使用基于擴散的生成模型，一種從潛在空間生成數(shù)據(jù)的方法。在訓(xùn)練階段，數(shù)據(jù)逐漸被加入噪聲，然后在逆過程中去除噪聲以重建清晰的圖像。
交叉注意力機制：通過交叉注意力機制，Hallo能夠在音頻特征和視覺特征之間建立聯(lián)系。該機制使得模型能夠集中注意力于與當前音頻輸入最相關(guān)的面部區(qū)域。
UNet去噪器：Hallo利用基于UNet的去噪器來逐步去除圖像中的噪聲，生成清晰的動畫幀。UNet結(jié)構(gòu)因其在圖像分割任務(wù)中的有效性而聞名，通過跳躍連接使用低層特征圖來提高生成質(zhì)量。
時間對齊技術(shù)：為了保持動畫在時間上的連貫性，Hallo采用了時間對齊技術(shù)，這有助于確保連續(xù)幀之間的平滑過渡和一致性。
參考網(wǎng)絡(luò)（ReferenceNet）：ReferenceNet用于編碼全局視覺紋理信息，以實現(xiàn)一致且可控的角色動畫，可幫助模型在生成過程中參考現(xiàn)有的圖像，以增強輸出的視覺質(zhì)量。
面部和音頻編碼器：Hallo使用預(yù)訓(xùn)練的面部編碼器來提取肖像的身份特征，同時使用音頻特征編碼器（如wav2vec）來將音頻信號轉(zhuǎn)換為可以驅(qū)動動畫的信息。
自適應(yīng)權(quán)重調(diào)整：Hallo允許調(diào)整不同視覺組件（如嘴唇、表情、姿態(tài)）的權(quán)重，以控制動畫的多樣性和細節(jié)。
訓(xùn)練與推理：在訓(xùn)練階段，Hallo通過優(yōu)化面部圖像編碼器和空間交叉注意力模塊的參數(shù)來提高單幀生成能力。在推理階段，模型結(jié)合參考圖像和驅(qū)動音頻來生成動畫視頻序列。