最強(qiáng)全模態(tài)模型Ola-7B橫掃圖像、視頻、音頻主流榜單,騰訊混元Research&清華&NTU聯(lián)手打造
Ola 的核心設(shè)計(jì)在于其漸進(jìn)式模態(tài)對齊策略。
原標(biāo)題:最強(qiáng)全模態(tài)模型Ola-7B橫掃圖像、視頻、音頻主流榜單,騰訊混元Research&清華&NTU聯(lián)手打造
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):8971字
Ola:一款超越現(xiàn)有模型的全模態(tài)語言模型
本文介紹了Ola,一個(gè)由騰訊混元Research、清華大學(xué)智能視覺實(shí)驗(yàn)室和南洋理工大學(xué)S-Lab合作開發(fā)的全模態(tài)語言模型。Ola在圖像、視頻和音頻理解方面展現(xiàn)出卓越性能,甚至超越了當(dāng)前最先進(jìn)的專用多模態(tài)模型,例如Qwen2.5-VL和InternVL2.5。
1. Ola模型的核心優(yōu)勢
Ola的核心在于其**漸進(jìn)式模態(tài)對齊策略**。該策略并非一次性融合所有模態(tài)數(shù)據(jù),而是逐步引入:首先是圖像和文本,然后是語音數(shù)據(jù)(連接語言和音頻),最后是視頻數(shù)據(jù)(連接所有模態(tài))。這種方法降低了訓(xùn)練難度和成本,并保持了跨模態(tài)對齊數(shù)據(jù)的規(guī)模相對較小。
2. Ola模型的架構(gòu)和數(shù)據(jù)
Ola采用可擴(kuò)展的架構(gòu),支持全模態(tài)輸入和流式文本及語音生成。它包含視覺和音頻聯(lián)合對齊模塊,利用局部-全局注意力池化層融合視覺輸入,并實(shí)現(xiàn)視覺、音頻和文本標(biāo)記的組合。此外,Ola集成了逐句流式解碼模塊,實(shí)現(xiàn)高質(zhì)量語音合成。
在數(shù)據(jù)方面,Ola利用了大規(guī)模文本-圖像數(shù)據(jù)、視頻對話數(shù)據(jù)以及精心設(shè)計(jì)的音頻數(shù)據(jù)(包括ASR、音頻字幕、音頻問答等)。值得一提的是,Ola團(tuán)隊(duì)開發(fā)了一種方法生成跨模態(tài)視頻數(shù)據(jù),利用視頻和字幕生成問答對,從而加強(qiáng)模型對視頻和音頻之間關(guān)系的理解。
3. Ola模型的性能表現(xiàn)
在多個(gè)基準(zhǔn)測試中,Ola都取得了領(lǐng)先的成績:
- 圖像基準(zhǔn)測試:在OpenCompass基準(zhǔn)測試中,Ola在8個(gè)數(shù)據(jù)集上的平均準(zhǔn)確率達(dá)到72.6%,在所有30B參數(shù)以內(nèi)的模型中排名第一,超越了GPT-4o、InternVL2.5等模型。
- 視頻基準(zhǔn)測試:在VideoMME中,Ola取得了68.4%的準(zhǔn)確率,超越了LLaVA-Video、VideoLLaMA3等模型。
- 音頻基準(zhǔn)測試:Ola在語音識(shí)別和評估等任務(wù)中也表現(xiàn)出色,接近最好音頻理解模型的水平。
實(shí)驗(yàn)結(jié)果表明,Ola的全模態(tài)訓(xùn)練策略有效提升了模型性能,尤其是在結(jié)合音頻信息后,視頻理解能力得到了顯著提升。
4. Ola模型的開源貢獻(xiàn)
Ola模型、代碼和訓(xùn)練數(shù)據(jù)均已開源,旨在推動(dòng)全模態(tài)理解領(lǐng)域的研究發(fā)展。其漸進(jìn)式模態(tài)對齊策略為訓(xùn)練高效且性能強(qiáng)大的全模態(tài)模型提供了一種新的思路。
5. 總結(jié)
Ola模型在全模態(tài)理解領(lǐng)域取得了顯著突破,其高效的訓(xùn)練策略和優(yōu)異的性能為未來通用人工智能模型的研究提供了寶貴的參考。 該模型的開源也為研究者提供了更便捷的工具,促進(jìn)該領(lǐng)域的進(jìn)一步發(fā)展。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)