HunyuanVideo-Avatar

HunyuanVideo-Avatar – 騰訊混元推出的語音數字人模型

HunyuanVideo-Avatar

HunyuanVideo-Avatar是一款由騰訊混元團隊與騰訊音樂天琴實驗室共同研發的先進語音數字人模型。其基礎架構為多模態擴散Transformer，能夠生成動態、情感可控的多角色對話視頻。該模型通過角像注入模塊解決了訓練與推理條件不匹配的問題，確保生成視頻中的角色保持一致性。

HunyuanVideo-Avatar是什么

HunyuanVideo-Avatar是騰訊混元團隊與騰訊音樂天琴實驗室聯合開發的語音數字人模型，基于多模態擴散Transformer架構，具備生成動態、情感可控及多角色對話視頻的能力。該模型配備角像注入模塊，有效消除訓練與推理間的條件不匹配，確保角色在視頻中的一致性。此外，音頻情感模塊（AEM）能夠從情感參考圖像提取情感線索，實現對情感風格的精準控制。面部感知音頻適配器（FAA）則支持多角色場景下的音頻注入，適用于短視頻制作和電商廣告等多種應用場景。

HunyuanVideo-Avatar的主要功能

視頻生成：用戶只需上傳一張人物圖像和相應的音頻，模型將自動分析音頻中的情感及環境，生成包含自然表情、唇形同步和全身動作的視頻。
多角色互動：在多角色場景中，模型能夠精準驅動多個角色，確保其唇形、表情和動作與音頻完美同步，生成各種對話和表演視頻片段。
多風格支持：支持多種風格、物種和多人場景，包括賽博朋克、2D動漫和中國水墨畫等，創作者可以輕松上傳卡通角色或虛擬形象，生成風格化的動態視頻，滿足動漫和游戲等領域的需求。

HunyuanVideo-Avatar的技術原理

多模態擴散Transformer架構（MM-DiT）：該架構能夠同時處理多種模態的數據，包括圖像、音頻和文本，實現高動態的視頻生成。通過“雙流到單流”的混合模型設計，處理視頻和文本數據后再融合，有效捕捉視覺與語義信息之間的復雜互動。
角像注入模塊：該模塊取代了傳統的加法角色條件方法，有效解決了訓練與推理之間的條件不匹配問題，確保生成視頻中角色的動態表現和一致性。
音頻情感模塊（AEM）：從情感參考圖像中提取情感線索，并將其轉移到目標生成視頻中，實現情感風格的精細調控。
面部感知音頻適配器（FAA）：通過潛在級別的面部掩碼實現音頻驅動的角色動作與表情生成，適用于多角色場景。
時空壓縮的潛在空間：基于Causal 3D VAE技術，將視頻數據壓縮成潛在表示，再通過解碼器重構回原始數據，顯著加快了訓練和推理過程，提高了生成視頻的質量。
MLLM文本編碼器：采用預訓練的多模態大語言模型（MLLM）作為文本編碼器，相較于傳統的CLIP和T5-XXL，MLLM在圖像-文本對齊、圖像細節描述和復雜推理方面表現更為出色。