最強全模態模型Ola-7B橫掃圖像、視頻、音頻主流榜單，騰訊混元Research&清華&NTU聯手打造

Ola 的核心設計在于其漸進式模態對齊策略。

原標題：最強全模態模型 Ola-7B橫掃圖像、視頻、音頻主流榜單，騰訊混元Research&清華&NTU聯手打造
文章來源：機器之心
內容字數：8971字

本文介紹了Ola，一個由騰訊混元Research、清華大學智能視覺實驗室和南洋理工大學S-Lab合作開發的全模態語言模型。Ola在圖像、視頻和音頻理解方面展現出卓越性能，甚至超越了當前最先進的專用多模態模型，例如Qwen2.5-VL和InternVL2.5。

Ola的核心在于其**漸進式模態對齊策略**。該策略并非一次性融合所有模態數據，而是逐步引入：首先是圖像和文本，然后是語音數據（連接語言和音頻），最后是視頻數據（連接所有模態）。這種方法降低了訓練難度和成本，并保持了跨模態對齊數據的規模相對較小。

Ola采用可擴展的架構，支持全模態輸入和流式文本及語音生成。它包含視覺和音頻聯合對齊模塊，利用局部-全局注意力池化層融合視覺輸入，并實現視覺、音頻和文本標記的組合。此外，Ola集成了逐句流式解碼模塊，實現高質量語音合成。

在數據方面，Ola利用了大規模文本-圖像數據、視頻對話數據以及精心設計的音頻數據（包括ASR、音頻字幕、音頻問答等）。值得一提的是，Ola團隊開發了一種方法生成跨模態視頻數據，利用視頻和字幕生成問答對，從而加強模型對視頻和音頻之間關系的理解。

在多個基準測試中，Ola都取得了領先的成績：

圖像基準測試：在OpenCompass基準測試中，Ola在8個數據集上的平均準確率達到72.6%，在所有30B參數以內的模型中排名第一，超越了GPT-4o、InternVL2.5等模型。
視頻基準測試：在VideoMME中，Ola取得了68.4%的準確率，超越了LLaVA-Video、VideoLLaMA3等模型。
音頻基準測試：Ola在語音識別和評估等任務中也表現出色，接近最好音頻理解模型的水平。

實驗結果表明，Ola的全模態訓練策略有效提升了模型性能，尤其是在結合音頻信息后，視頻理解能力得到了顯著提升。

Ola模型、代碼和訓練數據均已開源，旨在推動全模態理解領域的研究發展。其漸進式模態對齊策略為訓練高效且性能強大的全模態模型提供了一種新的思路。

Ola模型在全模態理解領域取得了顯著突破，其高效的訓練策略和優異的性能為未來通用人工智能模型的研究提供了寶貴的參考。該模型的開源也為研究者提供了更便捷的工具，促進該領域的進一步發展。

文章來源：機器之心
作者微信：
作者簡介：專業的人工智能媒體和產業服務平臺

文章版權歸作者所有，未經允許請勿轉載。

暫無評論...