国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

反超GPT 4o與Gemini-1.5-Pro！字節(jié)發(fā)布第二代視頻理解大模型「眼鏡猴」

補齊多模態(tài)最后一塊短板，Tarsier2 反超 GPT40、Gemini-1.5-Pro!

反超GPT 4o與Gemini-1.5-Pro！字節(jié)發(fā)布第二代視頻理解大模型「眼鏡猴」

原標題：反超GPT 4o與Gemini-1.5-Pro！字節(jié)發(fā)布第二代視頻理解大模型「眼鏡猴」
文章來源：智猩猩GenAI
內(nèi)容字數(shù)：4042字

字節(jié)跳動Tarsier2視頻理解模型：超越GPT-4o，引領(lǐng)多模態(tài)融合

本文總結(jié)了字節(jié)跳動研究團隊最新發(fā)布的視頻理解大模型Tarsier2的相關(guān)信息。Tarsier2在視頻理解領(lǐng)域取得了顯著突破，其性能在多個基準測試中超越了包括GPT-4o在內(nèi)的多個閉源和開源模型。

1. Tarsier2的強大性能

Tarsier2是一個7B參數(shù)的輕量級模型，能夠理解長達數(shù)十分鐘的視頻，尤其擅長分析幾十秒的短視頻片段。它能夠細致地捕捉視頻中的人物動作、結(jié)合字幕信息分析人物動機和心理，理解人物關(guān)系和情節(jié)發(fā)展。無論是真人視頻還是動畫，橫屏還是豎屏，Tarsier2都能準確地描述視頻內(nèi)容，并且很少出現(xiàn)幻覺。在對《燕子，沒有你我怎么活》和《曹操蓋飯》等影視片段的分析中，Tarsier2展現(xiàn)了其強大的理解能力。

2. “火眼金睛”的煉成之路：預(yù)訓(xùn)練和后訓(xùn)練

Tarsier2強大的視頻理解能力源于其精心設(shè)計的預(yù)訓(xùn)練和后訓(xùn)練過程：

2.1 預(yù)訓(xùn)練：Tarsier2在4000萬個互聯(lián)網(wǎng)視頻-文本數(shù)據(jù)上進行預(yù)訓(xùn)練。為了解決高質(zhì)量視頻-文本對齊數(shù)據(jù)獲取的難題，團隊采用了海量數(shù)據(jù)收集和嚴謹?shù)臄?shù)據(jù)篩選流程。數(shù)據(jù)收集涵蓋電影、電視劇、短視頻等多種來源，并特別篩選了大量的影視劇解說視頻，以幫助模型理解更高層次的情節(jié)信息。數(shù)據(jù)篩選則包含“分鏡→過濾→合并”三個階段，確保數(shù)據(jù)的質(zhì)量。

2.2 后訓(xùn)練：后訓(xùn)練分為SFT和DPO兩個階段。SFT階段，模型在人工標注的視頻描述數(shù)據(jù)上進行訓(xùn)練，并引入針對每個子的具體定位信息，增強模型對時序信息和視覺特征的關(guān)注度。DPO階段，模型在自動化構(gòu)造的正負樣本上進行訓(xùn)練，提高描述的準確性和全面性，減少幻覺。

3. 基準測試結(jié)果：超越GPT-4o和Gemini

Tarsier2在19個視頻理解公開基準上進行了測試，結(jié)果表明其性能超越了Qwen2-VL、InternVL2.5、LLaVA-Video等多個同規(guī)模的開源模型，以及Gemini-1.5和GPT-4o等閉源模型。尤其是在視頻描述評測集DREAM-1K上，Tarsier2相比GPT-4o提升了2.8%，相比Gemini-1.5-Pro提升了5.8%。人工評估結(jié)果也顯示Tarsier2-7b相比GPT-4o和Gemini-1.5-Pro具有顯著優(yōu)勢。