<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        最強(qiáng)全模態(tài)模型Ola-7B橫掃圖像、視頻、音頻主流榜單,騰訊混元Research&清華&NTU聯(lián)手打造

        Ola 的核心設(shè)計(jì)在于其漸進(jìn)式模態(tài)對齊策略。

        最強(qiáng)全模態(tài)模型Ola-7B橫掃圖像、視頻、音頻主流榜單,騰訊混元Research&清華&NTU聯(lián)手打造

        原標(biāo)題:最強(qiáng)全模態(tài)模型Ola-7B橫掃圖像、視頻、音頻主流榜單,騰訊混元Research&清華&NTU聯(lián)手打造
        文章來源:機(jī)器之心
        內(nèi)容字?jǐn)?shù):8971字

        Ola:一款超越現(xiàn)有模型的全模態(tài)語言模型

        本文介紹了Ola,一個(gè)由騰訊混元Research、清華大學(xué)智能視覺實(shí)驗(yàn)室和南洋理工大學(xué)S-Lab合作開發(fā)的全模態(tài)語言模型。Ola在圖像、視頻和音頻理解方面展現(xiàn)出卓越性能,甚至超越了當(dāng)前最先進(jìn)的專用多模態(tài)模型,例如Qwen2.5-VL和InternVL2.5。

        1. Ola模型的核心優(yōu)勢

        Ola的核心在于其**漸進(jìn)式模態(tài)對齊策略**。該策略并非一次性融合所有模態(tài)數(shù)據(jù),而是逐步引入:首先是圖像和文本,然后是語音數(shù)據(jù)(連接語言和音頻),最后是視頻數(shù)據(jù)(連接所有模態(tài))。這種方法降低了訓(xùn)練難度和成本,并保持了跨模態(tài)對齊數(shù)據(jù)的規(guī)模相對較小。

        2. Ola模型的架構(gòu)和數(shù)據(jù)

        Ola采用可擴(kuò)展的架構(gòu),支持全模態(tài)輸入和流式文本及語音生成。它包含視覺和音頻聯(lián)合對齊模塊,利用局部-全局注意力池化層融合視覺輸入,并實(shí)現(xiàn)視覺、音頻和文本標(biāo)記的組合。此外,Ola集成了逐句流式解碼模塊,實(shí)現(xiàn)高質(zhì)量語音合成。

        在數(shù)據(jù)方面,Ola利用了大規(guī)模文本-圖像數(shù)據(jù)、視頻對話數(shù)據(jù)以及精心設(shè)計(jì)的音頻數(shù)據(jù)(包括ASR、音頻字幕、音頻問答等)。值得一提的是,Ola團(tuán)隊(duì)開發(fā)了一種方法生成跨模態(tài)視頻數(shù)據(jù),利用視頻和字幕生成問答對,從而加強(qiáng)模型對視頻和音頻之間關(guān)系的理解。

        3. Ola模型的性能表現(xiàn)

        在多個(gè)基準(zhǔn)測試中,Ola都取得了領(lǐng)先的成績:

        • 圖像基準(zhǔn)測試:在OpenCompass基準(zhǔn)測試中,Ola在8個(gè)數(shù)據(jù)集上的平均準(zhǔn)確率達(dá)到72.6%,在所有30B參數(shù)以內(nèi)的模型中排名第一,超越了GPT-4o、InternVL2.5等模型。
        • 視頻基準(zhǔn)測試:在VideoMME中,Ola取得了68.4%的準(zhǔn)確率,超越了LLaVA-Video、VideoLLaMA3等模型。
        • 音頻基準(zhǔn)測試:Ola在語音識(shí)別和評估等任務(wù)中也表現(xiàn)出色,接近最好音頻理解模型的水平。

        實(shí)驗(yàn)結(jié)果表明,Ola的全模態(tài)訓(xùn)練策略有效提升了模型性能,尤其是在結(jié)合音頻信息后,視頻理解能力得到了顯著提升。

        4. Ola模型的開源貢獻(xiàn)

        Ola模型、代碼和訓(xùn)練數(shù)據(jù)均已開源,旨在推動(dòng)全模態(tài)理解領(lǐng)域的研究發(fā)展。其漸進(jìn)式模態(tài)對齊策略為訓(xùn)練高效且性能強(qiáng)大的全模態(tài)模型提供了一種新的思路。

        5. 總結(jié)

        Ola模型在全模態(tài)理解領(lǐng)域取得了顯著突破,其高效的訓(xùn)練策略和優(yōu)異的性能為未來通用人工智能模型的研究提供了寶貴的參考。 該模型的開源也為研究者提供了更便捷的工具,促進(jìn)該領(lǐng)域的進(jìn)一步發(fā)展。


        聯(lián)系作者

        文章來源:機(jī)器之心
        作者微信:
        作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 精品无码专区亚洲| 亚洲激情黄色小说| 美女黄频a美女大全免费皮| 性色av无码免费一区二区三区| 亚洲国产精品综合一区在线| 色老头永久免费网站| 亚洲性色成人av天堂| 57PAO成人国产永久免费视频| 亚洲欧洲国产成人精品| 久久电影网午夜鲁丝片免费| 亚洲中文无码mv| 免费在线一级毛片| 美女网站在线观看视频免费的| 国产亚洲成av片在线观看| 亚洲视频在线观看免费| 亚洲国产精品久久人人爱| 无码视频免费一区二三区| 美女一级毛片免费观看| 国产日韩成人亚洲丁香婷婷| 男人都懂www深夜免费网站| 亚洲精品日韩专区silk| 四虎成人免费网站在线| 二级毛片免费观看全程| 亚洲av午夜福利精品一区| 2021国产精品成人免费视频| 亚洲AV无码专区国产乱码不卡| 亚洲精品在线视频| 99久久国产免费-99久久国产免费| 亚洲av专区无码观看精品天堂| 国产三级免费观看| 男人进去女人爽免费视频国产 | 亚洲天堂免费在线视频| 午夜视频免费在线观看| 自拍偷区亚洲国内自拍| 成人免费视频一区二区| 亚洲精品在线电影| 亚洲色偷偷综合亚洲AV伊人| 91在线品视觉盛宴免费| 国产免费内射又粗又爽密桃视频 | 亚洲人成中文字幕在线观看| ww在线观视频免费观看|