反超GPT 4o與Gemini-1.5-Pro!字節(jié)發(fā)布第二代視頻理解大模型「眼鏡猴」
補(bǔ)齊多模態(tài)最后一塊短板,Tarsier2 反超 GPT40、Gemini-1.5-Pro!
原標(biāo)題:反超GPT 4o與Gemini-1.5-Pro!字節(jié)發(fā)布第二代視頻理解大模型「眼鏡猴」
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):4042字
字節(jié)跳動Tarsier2視頻理解模型:超越GPT-4o,引領(lǐng)多模態(tài)融合
本文總結(jié)了字節(jié)跳動研究團(tuán)隊(duì)最新發(fā)布的視頻理解大模型Tarsier2的相關(guān)信息。Tarsier2在視頻理解領(lǐng)域取得了顯著突破,其性能在多個基準(zhǔn)測試中超越了包括GPT-4o在內(nèi)的多個閉源和開源模型。
1. Tarsier2的強(qiáng)大性能
Tarsier2是一個7B參數(shù)的輕量級模型,能夠理解長達(dá)數(shù)十分鐘的視頻,尤其擅長分析幾十秒的短視頻片段。它能夠細(xì)致地捕捉視頻中的人物動作、結(jié)合字幕信息分析人物動機(jī)和心理,理解人物關(guān)系和情節(jié)發(fā)展。無論是真人視頻還是動畫,橫屏還是豎屏,Tarsier2都能準(zhǔn)確地描述視頻內(nèi)容,并且很少出現(xiàn)幻覺。在對《燕子,沒有你我怎么活》和《曹操蓋飯》等影視片段的分析中,Tarsier2展現(xiàn)了其強(qiáng)大的理解能力。
2. “火眼金睛”的煉成之路:預(yù)訓(xùn)練和后訓(xùn)練
Tarsier2強(qiáng)大的視頻理解能力源于其精心設(shè)計(jì)的預(yù)訓(xùn)練和后訓(xùn)練過程:
2.1 預(yù)訓(xùn)練:Tarsier2在4000萬個互聯(lián)網(wǎng)視頻-文本數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練。為了解決高質(zhì)量視頻-文本對齊數(shù)據(jù)獲取的難題,團(tuán)隊(duì)采用了海量數(shù)據(jù)收集和嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)篩選流程。數(shù)據(jù)收集涵蓋電影、電視劇、短視頻等多種來源,并特別篩選了大量的影視劇解說視頻,以幫助模型理解更高層次的情節(jié)信息。數(shù)據(jù)篩選則包含“分鏡→過濾→合并”三個階段,確保數(shù)據(jù)的質(zhì)量。
2.2 后訓(xùn)練:后訓(xùn)練分為SFT和DPO兩個階段。SFT階段,模型在人工標(biāo)注的視頻描述數(shù)據(jù)上進(jìn)行訓(xùn)練,并引入針對每個子的具體定位信息,增強(qiáng)模型對時序信息和視覺特征的關(guān)注度。DPO階段,模型在自動化構(gòu)造的正負(fù)樣本上進(jìn)行訓(xùn)練,提高描述的準(zhǔn)確性和全面性,減少幻覺。
3. 基準(zhǔn)測試結(jié)果:超越GPT-4o和Gemini
Tarsier2在19個視頻理解公開基準(zhǔn)上進(jìn)行了測試,結(jié)果表明其性能超越了Qwen2-VL、InternVL2.5、LLaVA-Video等多個同規(guī)模的開源模型,以及Gemini-1.5和GPT-4o等閉源模型。尤其是在視頻描述評測集DREAM-1K上,Tarsier2相比GPT-4o提升了2.8%,相比Gemini-1.5-Pro提升了5.8%。人工評估結(jié)果也顯示Tarsier2-7b相比GPT-4o和Gemini-1.5-Pro具有顯著優(yōu)勢。
4. 廣泛的應(yīng)用場景
Tarsier2作為基座模型,在機(jī)器人和智能駕駛等下游任務(wù)場景中也展現(xiàn)了強(qiáng)大的泛化能力。它可以為機(jī)器人任務(wù)生成詳細(xì)的步驟指令,并幫助車輛識別道路情況,輔助決策。
5. 未來展望
Tarsier2在視頻理解領(lǐng)域取得了顯著成果,超越了現(xiàn)有的閉源和開源模型。它在多模態(tài)深度融合方面邁出了堅(jiān)實(shí)的步伐,未來有望在多模態(tài)融合的浪潮中持續(xù)領(lǐng)航,為人工智能的發(fā)展帶來更多驚喜。
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術(shù)文章、論文成果與產(chǎn)品信息。