ECCV 2024 | 比基準(zhǔn)高30%,媲美Gemini 1.5 Pro,基于記憶的視頻理解智能體來(lái)了
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:ECCV 2024 | 比基準(zhǔn)高30%,媲美Gemini 1.5 Pro,基于記憶的視頻理解智能體來(lái)了
關(guān)鍵字:視頻,物體,片段,模型,記憶
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年,機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com視頻理解仍然是計(jì)算機(jī)視覺(jué)和人工智能領(lǐng)域的一個(gè)主要挑戰(zhàn)。最近在視頻理解上的許多進(jìn)展都是通過(guò)端到端地訓(xùn)練多模態(tài)大語(yǔ)言模型實(shí)現(xiàn)的[1,2,3]。然而,當(dāng)這些模型處理較長(zhǎng)的視頻時(shí),內(nèi)存消耗可能會(huì)顯著增加,甚至變得難以承受,并且自注意力機(jī)制有時(shí)可能難以捕捉長(zhǎng)程關(guān)系 [4]。這些問(wèn)題阻礙了將端到端模型進(jìn)一步應(yīng)用于視頻理解。
為解決這一問(wèn)題,北京通用人工智能研究院聯(lián)合北京大學(xué)的研究人員提出了首個(gè)基于記憶和工具使用的視頻理解智能體VideoAgent,在視頻理解任務(wù)上媲美Gemini 1.5 Pro。該論文已被ECCV 2024接收。論文鏈接:https://arxiv.org/abs/2403.11481
項(xiàng)目主頁(yè):https://videoagent.github.io/
原文鏈接:ECCV 2024 | 比基準(zhǔn)高30%,媲美Gemini 1.5 Pro,基于記憶的視頻理解智能體來(lái)了
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介: