HumanOmni

HumanOmni – 阿里通義等推出專注人類中心場景的多模態大模型

HumanOmni是一款專注于人類中心場景的多模態大模型，融合了視覺和聽覺信息，旨在全面理解人類行為、情感和互動。該模型通過處理視頻、音頻或兩者的結合輸入，展現出卓越的情感識別、面部表情描述和語音理解能力。基于超過240萬段視頻和1400萬條指令的預訓練，HumanOmni采用動態權重調整機制，根據不同場景靈活整合視覺與聽覺信息。

HumanOmni是什么

HumanOmni是一款專注于人類中心場景的多模態大模型，旨在融合視覺和聽覺信息，通過處理視頻、音頻或兩者的結合，全面理解人類的行為、情感與互動。該模型在超過240萬段視頻片段和1400萬條指令的基礎上進行了預訓練，運用動態權重調整機制，靈活整合不同場景下的視覺和聽覺信息。HumanOmni在情感識別、面部描述及語音識別等領域表現出色，適用于多種應用場景，如電影分析、特寫視頻解讀及實拍視頻理解。

HumanOmni

HumanOmni的主要功能

多模態融合：HumanOmni能夠同時處理視覺（視頻）、聽覺（音頻）及文本信息，利用指令驅動的動態權重調整機制，融合不同模態的特征，全面理解復雜場景。
人類中心場景理解：模型設有三個專門的分支，分別處理面部、身體和交互相關場景，根據用戶指令自適應調整各分支的權重，以滿足不同任務需求。
情感識別與面部表情描述：在動態面部情感識別和表情描述任務中，HumanOmni展現出卓越表現，超越現有的視頻-語言多模態模型。
動作理解：通過身體相關分支，模型有效理解人體動作，適合動作識別和分析任務。
語音識別與理解：在語音識別任務中，HumanOmni通過音頻處理模塊（如Whisper-large-v3）實現高效的語音理解，支持特定說話人的識別。
跨模態交互：結合視覺和聽覺信息，模型能更全面地理解場景，適用于電影片段分析、特寫視頻解讀及實拍視頻理解等任務。
靈活的微調支持：開發者可基于HumanOmni的預訓練參數進行微調，以適應特定數據集或任務需求。

HumanOmni的技術原理

多模態融合架構：HumanOmni通過視覺、聽覺和文本三種模態的融合，實現對復雜場景的全面理解。視覺部分設有三個分支，分別用于捕捉面部表情、身體動作和環境交互特征，利用指令驅動的融合模塊動態調整權重，選擇最適合任務的視覺特征。
動態權重調整機制：模型引入指令驅動的特征融合機制，通過BERT對用戶指令編碼，生成權重，動態調整不同分支的特征權重。在情感識別任務中，模型會更側重面部相關分支的特征，而在交互場景中則優先考慮交互相關分支。
聽覺與視覺的協同處理：在聽覺方面，HumanOmni使用Whisper-large-v3音頻預處理器和編碼器處理音頻數據，通過MLP2xGeLU將其映射到文本域。視覺和聽覺特征在統一表示空間中結合，進一步輸入到大語言模型的解碼器中進行處理。
多階段訓練策略：HumanOmni的訓練分為三個階段：
- 第一階段構建視覺能力，更新視覺映射器和指令融合模塊的參數。
- 第二階段發展聽覺能力，僅更新音頻映射器的參數。
- 第三階段進行跨模態交互集成，提升模型處理多模態信息的能力。
數據驅動的優化：HumanOmni基于超過240萬段視頻片段和1400萬條指令數據進行預訓練，涵蓋情感識別、面部描述和特定說話人語音識別等多個任務，模型在多種場景下表現出色。