年末重磅！ByteDance Research視頻理解大模型「眼鏡猴」正式發布

補齊多模態最后一塊短板，Tarsier2 反超 GPT4o、Gemini-1.5-Pro！

原標題：年末重磅！ByteDance Research視頻理解大模型「眼鏡猴」正式發布
文章來源：機器之心
內容字數：4039字

字節跳動Tarsier2視頻理解模型：超越GPT-4o的“火眼金睛”

字節跳動研究團隊近期發布了第二代視頻理解大模型Tarsier2，并在多個視頻理解基準測試中取得了領先成績，甚至在某些指標上超越了閉源模型GPT-4o和Gemini-1.5-Pro。

1. Tarsier2的驚艷表現

文章以《燕子，沒有你我怎么活》和《曹操蓋飯》兩個影視片段為例，展示了Tarsier2對視頻內容細致入微的理解能力。它不僅能捕捉人物動作，還能結合字幕信息分析人物動機、心理和情節發展。在各種類型的視頻（真人、動畫、橫屏、豎屏等）中，Tarsier2都能準確、簡潔地生成視頻描述，且很少出現幻覺。

2. “火眼金睛”的煉成之路：預訓練和后訓練

Tarsier2強大的視頻理解能力源于其精心設計的預訓練和后訓練流程：

預訓練：Tarsier2在4000萬個互聯網視頻-文本數據上進行預訓練。為了解決高質量視頻-文本對齊數據不足的難題，團隊通過海量數據收集和嚴格的數據篩選流程（分鏡、過濾、合并三個階段）來保證數據質量。其中，篩選了大量影視劇解說視頻，幫助模型理解更高層次的情節信息。
后訓練：后訓練分為SFT（監督微調）和DPO（對比預訓練優化）兩個階段。SFT階段引入針對每個子的具體定位信息，強化模型對時序信息和視覺特征的關注，增強文本與視覺信號的對齊。DPO階段通過自動化構造正負樣本，提高模型描述的準確性和全面性，減少幻覺。

3. 超越SOTA的性能

Tarsier2在19個視頻理解公開基準上進行了測試，與多個最新的開源模型（Qwen2-VL、InternVL2.5、LLaVA-Video等）和閉源模型（Gemini-1.5，GPT-4o）進行了對比。結果顯示，Tarsier2在視頻描述、短/長視頻問答等任務上表現亮眼，在DREAM-1K數據集上的視頻描述任務中，其性能優于GPT-4o和Gemini-1.5-Pro。在人工評估中，Tarsier2-7b也展現出顯著的優勢。

4. 廣泛的應用前景

Tarsier2作為基座模型，在機器人和智能駕駛等領域也展現出強大的泛化能力，可以生成詳細的任務指令和輔助駕駛決策。

5. 未來展望

Tarsier2在視頻理解領域取得了顯著進展，在多模態融合的趨勢下，未來有望在人工智能領域持續領航，帶來更多驚喜和突破。

相關資源：論文地址：[https://arxiv.org/abs/2501.07888](https://arxiv.org/abs/2501.07888) 項目倉庫：[https://github.com/bytedance/tarsier](https://github.com/bytedance/tarsier) HuggingFace：[https://huggingface.co/omni-research](https://huggingface.co/omni-research)

聯系作者

文章來源：機器之心
作者微信：
作者簡介：專業的人工智能媒體和產業服務平臺

閱讀原文

# AIGC動態 # AI視頻分析 # ByteDanceResearch # 多模態大模型 # 眼鏡猴 # 視頻理解大模型

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

年末重磅！ByteDance Research視頻理解大模型「眼鏡猴」正式發布

補齊多模態最后一塊短板，Tarsier2 反超 GPT4o、Gemini-1.5-Pro！

字節跳動Tarsier2視頻理解模型：超越GPT-4o的“火眼金睛”

1. Tarsier2的驚艷表現

2. “火眼金睛”的煉成之路：預訓練和后訓練

3. 超越SOTA的性能

4. 廣泛的應用前景

5. 未來展望

聯系作者

除了 S25 手機，三星發布會還公開了首款頭顯，外觀很眼熟，AI 是亮點

VLA改寫智駕競速規則，英偉達算力核彈加持，黑馬玩家4個月撬走10%份額

相關文章

暫無評論