国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

OmniHuman

OmniHuman – 字節跳動推出的單張照片生成全身動態視頻生成框架

OmniHuman是什么

OmniHuman是字節跳動推出的一種先進的多模態視頻生成框架，能夠根據單一的人類圖像及信號（如音頻、視頻或兩者的結合）生成栩栩如生的人類視頻。該框架采用多模態條件混合訓練策略，有效克服了以往方法因高質量數據稀缺而造成的性能瓶頸，支持多種寬高比的圖像輸入（涵蓋肖像、半身和全身圖像），并能夠適應多種場景需求。OmniHuman在歌唱、對話和手勢處理等多個領域表現優異，支持多種視覺和音頻風格，能夠利用音頻、視頻及其組合來生成高質量的視頻內容。

OmniHuman

OmniHuman的主要功能

多模態驅動的視頻生成：
- 支持音頻驅動（如對話、唱歌）和姿勢驅動（如手勢、動作），并可融合兩者生成流暢自然的人類動作視頻。
- 兼容多種輸入形式，包括面部特寫、半身像、全身像，適應不同比例和風格的圖像。
高逼真度與多樣化動作：
- 生成的視頻在視覺效果上高度真實，具備自然的面部表情、肢體動作和流暢的動態表現。
- 能夠處理復雜動作和物體交互，例如在唱歌時演奏樂器、手勢與物體之間的自然互動等。
靈活的視頻生成：
- 支持任意寬高比和時長的視頻生成，根據輸入信號生成不同長度的視頻片段。
- 兼容多種圖像風格，包括寫實、卡通和風格化的人物表現。
多場景適應性：在各種環境中生成高質量視頻，涵蓋不同的背景、光照條件和攝像角度。

OmniHuman的技術原理

混合條件訓練策略：
- 多條件融合：將文本、音頻和姿勢等多種相關條件混合于訓練過程中，以減少數據選擇的浪費，充分利用不同條件之間的互補性。
- 分階段訓練：基于三階段的訓練策略，逐步引入不同條件（文本、音頻、姿勢），根據條件的強弱調整訓練比例，從而優化模型的泛化能力。
- 訓練原則：更強條件的任務需要使用較弱條件的任務及其對應數據，以擴大數據規模。條件越強，訓練比例應越低，以避免模型過度依賴于強條件。
擴散變換器架構：
- 基于DiT的模型：OmniHuman基于先進的視頻生成模型架構DiT，利用因果3DVAE將視頻投影至潛在空間，并以流匹配作為訓練目標。
- 條件注入：
  - 音頻條件：通過wav2vec模型提取音頻特征，并將其與視頻幀特征結合，生成音頻令牌，基于交叉注意力機制注入至模型中。
  - 姿勢條件：利用姿勢引導器處理姿勢條件，將姿勢熱圖特征與視頻幀特征結合，生成姿勢令牌，連同噪聲潛在表示一起輸入模型。
  - 文本條件：保留DiT架構中的文本分支，用于描述生成視頻的內容。
- 參考條件處理：采用創新的參考條件策略，通過修改3D旋轉位置嵌入，將參考圖像特征與視頻特征融合，無需額外的網絡模塊。
- 推理策略：
  - 分類器引導（CFG）：在推理過程中，對音頻和文本條件應用CFG策略，通過逐步降低CFG強度，平衡表達性與計算效率，減少生成視頻中的瑕疵。
  - 長視頻生成：使用上一個視頻片段的最后幾幀作為幀，確保長視頻生成中的時間連貫性和身份一致性。