ECCV 2024 | 比基準高30%,媲美Gemini 1.5 Pro,基于記憶的視頻理解智能體來了
AIGC動態(tài)歡迎閱讀
原標題:ECCV 2024 | 比基準高30%,媲美Gemini 1.5 Pro,基于記憶的視頻理解智能體來了
關鍵字:視頻,物體,片段,模型,記憶
文章來源:機器之心
內容字數:0字
內容摘要:
AIxiv專欄是機器之心發(fā)布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學術交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com視頻理解仍然是計算機視覺和人工智能領域的一個主要挑戰(zhàn)。最近在視頻理解上的許多進展都是通過端到端地訓練多模態(tài)大語言模型實現的[1,2,3]。然而,當這些模型處理較長的視頻時,內存消耗可能會顯著增加,甚至變得難以承受,并且自注意力機制有時可能難以捕捉長程關系 [4]。這些問題阻礙了將端到端模型進一步應用于視頻理解。
為解決這一問題,北京通用人工智能研究院聯(lián)合北京大學的研究人員提出了首個基于記憶和工具使用的視頻理解智能體VideoAgent,在視頻理解任務上媲美Gemini 1.5 Pro。該論文已被ECCV 2024接收。論文鏈接:https://arxiv.org/abs/2403.11481
項目主頁:https://videoagent.github.io/
原文鏈接:ECCV 2024 | 比基準高30%,媲美Gemini 1.5 Pro,基于記憶的視頻理解智能體來了
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...