補齊多模態最后一塊短板,Tarsier2 反超 GPT4o、Gemini-1.5-Pro!
原標題:年末重磅!ByteDance Research視頻理解大模型「眼鏡猴」正式發布
文章來源:機器之心
內容字數:4039字
字節跳動Tarsier2視頻理解模型:超越GPT-4o的“火眼金睛”
字節跳動研究團隊近期發布了第二代視頻理解大模型Tarsier2,并在多個視頻理解基準測試中取得了領先成績,甚至在某些指標上超越了閉源模型GPT-4o和Gemini-1.5-Pro。
1. Tarsier2的驚艷表現
文章以《燕子,沒有你我怎么活》和《曹操蓋飯》兩個影視片段為例,展示了Tarsier2對視頻內容細致入微的理解能力。它不僅能捕捉人物動作,還能結合字幕信息分析人物動機、心理和情節發展。在各種類型的視頻(真人、動畫、橫屏、豎屏等)中,Tarsier2都能準確、簡潔地生成視頻描述,且很少出現幻覺。
2. “火眼金睛”的煉成之路:預訓練和后訓練
Tarsier2強大的視頻理解能力源于其精心設計的預訓練和后訓練流程:
- 預訓練:Tarsier2在4000萬個互聯網視頻-文本數據上進行預訓練。為了解決高質量視頻-文本對齊數據不足的難題,團隊通過海量數據收集和嚴格的數據篩選流程(分鏡、過濾、合并三個階段)來保證數據質量。其中,篩選了大量影視劇解說視頻,幫助模型理解更高層次的情節信息。
- 后訓練:后訓練分為SFT(監督微調)和DPO(對比預訓練優化)兩個階段。SFT階段引入針對每個子的具體定位信息,強化模型對時序信息和視覺特征的關注,增強文本與視覺信號的對齊。DPO階段通過自動化構造正負樣本,提高模型描述的準確性和全面性,減少幻覺。
3. 超越SOTA的性能
Tarsier2在19個視頻理解公開基準上進行了測試,與多個最新的開源模型(Qwen2-VL、InternVL2.5、LLaVA-Video等)和閉源模型(Gemini-1.5,GPT-4o)進行了對比。結果顯示,Tarsier2在視頻描述、短/長視頻問答等任務上表現亮眼,在DREAM-1K數據集上的視頻描述任務中,其性能優于GPT-4o和Gemini-1.5-Pro。在人工評估中,Tarsier2-7b也展現出顯著的優勢。
4. 廣泛的應用前景
Tarsier2作為基座模型,在機器人和智能駕駛等領域也展現出強大的泛化能力,可以生成詳細的任務指令和輔助駕駛決策。
5. 未來展望
Tarsier2在視頻理解領域取得了顯著進展,在多模態融合的趨勢下,未來有望在人工智能領域持續領航,帶來更多驚喜和突破。
相關資源:論文地址:[https://arxiv.org/abs/2501.07888](https://arxiv.org/abs/2501.07888) 項目倉庫:[https://github.com/bytedance/tarsier](https://github.com/bytedance/tarsier) HuggingFace:[https://huggingface.co/omni-research](https://huggingface.co/omni-research)
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺