<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        年末重磅!ByteDance Research視頻理解大模型「眼鏡猴」正式發(fā)布

        AIGC動態(tài)5個月前發(fā)布 機器之心
        573 0 0

        補齊多模態(tài)最后一塊短板,Tarsier2 反超 GPT4o、Gemini-1.5-Pro!

        年末重磅!ByteDance Research視頻理解大模型「眼鏡猴」正式發(fā)布

        原標題:年末重磅!ByteDance Research視頻理解大模型眼鏡猴」正式發(fā)布
        文章來源:機器之心
        內(nèi)容字數(shù):4039字

        字節(jié)跳動Tarsier2視頻理解模型:超越GPT-4o的“火眼金睛”

        字節(jié)跳動研究團隊近期發(fā)布了第二代視頻理解大模型Tarsier2,并在多個視頻理解基準測試中取得了領(lǐng)先成績,甚至在某些指標上超越了閉源模型GPT-4o和Gemini-1.5-Pro。

        1. Tarsier2的驚艷表現(xiàn)

        文章以《燕子,沒有你我怎么活》和《曹操蓋飯》兩個影視片段為例,展示了Tarsier2對視頻內(nèi)容細致入微的理解能力。它不僅能捕捉人物動作,還能結(jié)合字幕信息分析人物動機、心理和情節(jié)發(fā)展。在各種類型的視頻(真人、動畫、橫屏、豎屏等)中,Tarsier2都能準確、簡潔地生成視頻描述,且很少出現(xiàn)幻覺。

        2. “火眼金睛”的煉成之路:預(yù)訓練和后訓練

        Tarsier2強大的視頻理解能力源于其精心設(shè)計的預(yù)訓練和后訓練流程:

        1. 預(yù)訓練:Tarsier2在4000萬個互聯(lián)網(wǎng)視頻-文本數(shù)據(jù)上進行預(yù)訓練。為了解決高質(zhì)量視頻-文本對齊數(shù)據(jù)不足的難題,團隊通過海量數(shù)據(jù)收集和嚴格的數(shù)據(jù)篩選流程(分鏡、過濾、合并三個階段)來保證數(shù)據(jù)質(zhì)量。其中,篩選了大量影視劇解說視頻,幫助模型理解更高層次的情節(jié)信息。
        2. 后訓練:后訓練分為SFT(監(jiān)督微調(diào))和DPO(對比預(yù)訓練優(yōu)化)兩個階段。SFT階段引入針對每個子的具體定位信息,強化模型對時序信息和視覺特征的關(guān)注,增強文本與視覺信號的對齊。DPO階段通過自動化構(gòu)造正負樣本,提高模型描述的準確性和全面性,減少幻覺。

        3. 超越SOTA的性能

        Tarsier2在19個視頻理解公開基準上進行了測試,與多個最新的開源模型(Qwen2-VL、InternVL2.5、LLaVA-Video等)和閉源模型(Gemini-1.5,GPT-4o)進行了對比。結(jié)果顯示,Tarsier2在視頻描述、短/長視頻問答等任務(wù)上表現(xiàn)亮眼,在DREAM-1K數(shù)據(jù)集上的視頻描述任務(wù)中,其性能優(yōu)于GPT-4o和Gemini-1.5-Pro。在人工評估中,Tarsier2-7b也展現(xiàn)出顯著的優(yōu)勢。

        4. 廣泛的應(yīng)用前景

        Tarsier2作為基座模型,在機器人和智能駕駛等領(lǐng)域也展現(xiàn)出強大的泛化能力,可以生成詳細的任務(wù)指令和輔助駕駛決策。

        5. 未來展望

        Tarsier2在視頻理解領(lǐng)域取得了顯著進展,在多模態(tài)融合的趨勢下,未來有望在人工智能領(lǐng)域持續(xù)領(lǐng)航,帶來更多驚喜和突破。

        相關(guān)資源:論文地址:[https://arxiv.org/abs/2501.07888](https://arxiv.org/abs/2501.07888) 項目倉庫:[https://github.com/bytedance/tarsier](https://github.com/bytedance/tarsier) HuggingFace:[https://huggingface.co/omni-research](https://huggingface.co/omni-research)


        聯(lián)系作者

        文章來源:機器之心
        作者微信:
        作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲一区二区在线免费观看| 亚洲欧洲国产成人综合在线观看| 久久夜色精品国产嚕嚕亚洲av| 污污视频网站免费观看| 亚洲欧洲精品成人久久奇米网| 国产vA免费精品高清在线观看| 国产精品亚洲综合一区| 国产免费区在线观看十分钟| 久久久久久久尹人综合网亚洲| 国产偷伦视频免费观看| 亚洲黄网在线观看| 69式国产真人免费视频| 亚洲乱码一区二区三区国产精品| 成人午夜免费福利| 日韩在线观看免费| 亚洲人成网站在线播放vr| 少妇无码一区二区三区免费| 91亚洲精品麻豆| 免费涩涩在线视频网| xxxxx做受大片视频免费| 亚洲va在线va天堂va888www| 三年片在线观看免费大全| 黑人粗长大战亚洲女2021国产精品成人免费视频 | 国内外成人免费视频| 蜜桃传媒一区二区亚洲AV| 亚洲区日韩区无码区| 精品国产麻豆免费人成网站| 亚洲制服丝袜精品久久| 免费无码黄网站在线观看| 国产精品小视频免费无限app| 久久精品国产亚洲AV果冻传媒| 亚洲一区二区免费视频| 婷婷亚洲综合一区二区| 久久久久久久尹人综合网亚洲| 日日麻批免费40分钟日本的| 国产精品亚洲综合天堂夜夜| 亚洲精品无码永久在线观看你懂的 | 亚洲男人的天堂一区二区| 久久99国产综合精品免费| 亚洲AV一区二区三区四区| 亚洲成AV人片在线观看WWW|