年末重磅!ByteDance Research視頻理解大模型「眼鏡猴」正式發(fā)布
補齊多模態(tài)最后一塊短板,Tarsier2 反超 GPT4o、Gemini-1.5-Pro!
原標題:年末重磅!ByteDance Research視頻理解大模型「眼鏡猴」正式發(fā)布
文章來源:機器之心
內(nèi)容字數(shù):4039字
字節(jié)跳動Tarsier2視頻理解模型:超越GPT-4o的“火眼金睛”
字節(jié)跳動研究團隊近期發(fā)布了第二代視頻理解大模型Tarsier2,并在多個視頻理解基準測試中取得了領(lǐng)先成績,甚至在某些指標上超越了閉源模型GPT-4o和Gemini-1.5-Pro。
1. Tarsier2的驚艷表現(xiàn)
文章以《燕子,沒有你我怎么活》和《曹操蓋飯》兩個影視片段為例,展示了Tarsier2對視頻內(nèi)容細致入微的理解能力。它不僅能捕捉人物動作,還能結(jié)合字幕信息分析人物動機、心理和情節(jié)發(fā)展。在各種類型的視頻(真人、動畫、橫屏、豎屏等)中,Tarsier2都能準確、簡潔地生成視頻描述,且很少出現(xiàn)幻覺。
2. “火眼金睛”的煉成之路:預(yù)訓練和后訓練
Tarsier2強大的視頻理解能力源于其精心設(shè)計的預(yù)訓練和后訓練流程:
- 預(yù)訓練:Tarsier2在4000萬個互聯(lián)網(wǎng)視頻-文本數(shù)據(jù)上進行預(yù)訓練。為了解決高質(zhì)量視頻-文本對齊數(shù)據(jù)不足的難題,團隊通過海量數(shù)據(jù)收集和嚴格的數(shù)據(jù)篩選流程(分鏡、過濾、合并三個階段)來保證數(shù)據(jù)質(zhì)量。其中,篩選了大量影視劇解說視頻,幫助模型理解更高層次的情節(jié)信息。
- 后訓練:后訓練分為SFT(監(jiān)督微調(diào))和DPO(對比預(yù)訓練優(yōu)化)兩個階段。SFT階段引入針對每個子的具體定位信息,強化模型對時序信息和視覺特征的關(guān)注,增強文本與視覺信號的對齊。DPO階段通過自動化構(gòu)造正負樣本,提高模型描述的準確性和全面性,減少幻覺。
3. 超越SOTA的性能
Tarsier2在19個視頻理解公開基準上進行了測試,與多個最新的開源模型(Qwen2-VL、InternVL2.5、LLaVA-Video等)和閉源模型(Gemini-1.5,GPT-4o)進行了對比。結(jié)果顯示,Tarsier2在視頻描述、短/長視頻問答等任務(wù)上表現(xiàn)亮眼,在DREAM-1K數(shù)據(jù)集上的視頻描述任務(wù)中,其性能優(yōu)于GPT-4o和Gemini-1.5-Pro。在人工評估中,Tarsier2-7b也展現(xiàn)出顯著的優(yōu)勢。
4. 廣泛的應(yīng)用前景
Tarsier2作為基座模型,在機器人和智能駕駛等領(lǐng)域也展現(xiàn)出強大的泛化能力,可以生成詳細的任務(wù)指令和輔助駕駛決策。
5. 未來展望
Tarsier2在視頻理解領(lǐng)域取得了顯著進展,在多模態(tài)融合的趨勢下,未來有望在人工智能領(lǐng)域持續(xù)領(lǐng)航,帶來更多驚喜和突破。
相關(guān)資源:論文地址:[https://arxiv.org/abs/2501.07888](https://arxiv.org/abs/2501.07888) 項目倉庫:[https://github.com/bytedance/tarsier](https://github.com/bytedance/tarsier) HuggingFace:[https://huggingface.co/omni-research](https://huggingface.co/omni-research)
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺