ECCV 2024 | 比基準(zhǔn)高30%，媲美Gemini 1.5 Pro，基于記憶的視頻理解智能體來(lái)了

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：ECCV 2024 | 比基準(zhǔn)高30%，媲美Gemini 1.5 Pro，基于記憶的視頻理解智能體來(lái)了
關(guān)鍵字：視頻,物體,片段,模型,記憶
文章來(lái)源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年，機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容，覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室，有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享，歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com視頻理解仍然是計(jì)算機(jī)視覺(jué)和人工智能領(lǐng)域的一個(gè)主要挑戰(zhàn)。最近在視頻理解上的許多進(jìn)展都是通過(guò)端到端地訓(xùn)練多模態(tài)大語(yǔ)言模型實(shí)現(xiàn)的[1,2,3]。然而，當(dāng)這些模型處理較長(zhǎng)的視頻時(shí)，內(nèi)存消耗可能會(huì)顯著增加，甚至變得難以承受，并且自注意力機(jī)制有時(shí)可能難以捕捉長(zhǎng)程關(guān)系 [4]。這些問(wèn)題阻礙了將端到端模型進(jìn)一步應(yīng)用于視頻理解。
為解決這一問(wèn)題，北京通用人工智能研究院聯(lián)合北京大學(xué)的研究人員提出了首個(gè)基于記憶和工具使用的視頻理解智能體VideoAgent，在視頻理解任務(wù)上媲美Gemini 1.5 Pro。該論文已被ECCV 2024接收。論文鏈接：https://arxiv.org/abs/2403.11481
項(xiàng)目主頁(yè)：https://videoagent.github.io/

原文鏈接：ECCV 2024 | 比基準(zhǔn)高30%，媲美Gemini 1.5 Pro，基于記憶的視頻理解智能體來(lái)了