NeurIPS 2024 | 消除多對(duì)多問題，清華提出大規(guī)模細(xì)粒度視頻片段標(biāo)注新范式VERIFIED

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：NeurIPS 2024 | 消除多對(duì)多問題，清華提出大規(guī)模細(xì)粒度視頻片段標(biāo)注新范式VERIFIED
關(guān)鍵字：視頻,模型,數(shù)據(jù),文本,片段
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年，機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容，覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室，有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享，歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com陳厚倫，清華大學(xué)計(jì)算機(jī)系媒體所的二年級(jí)博士生，主要研究方向是多模態(tài)大模型與視頻理解，在 NeurIPS 、ACM Multimedia 等頂級(jí)會(huì)議發(fā)表多篇論文，曾獲國家獎(jiǎng)學(xué)金、北京市優(yōu)秀本科畢業(yè)生等。
視頻內(nèi)容的快速增長給視頻檢索技術(shù)，特別是細(xì)粒度視頻片段檢索（VCMR），帶來了巨大挑戰(zhàn)。VCMR 要求系統(tǒng)根據(jù)文本查詢從視頻庫中精準(zhǔn)定位視頻中的匹配片段，需具備跨模態(tài)理解和細(xì)粒度視頻理解能力。
然而，現(xiàn)有研究多局限于粗粒度理解，難以應(yīng)對(duì)細(xì)粒度查詢。為此，來自清華大學(xué)的研究者提出自動(dòng)化視頻 – 文本細(xì)粒度標(biāo)注系統(tǒng) VERIFIED，并基于此系統(tǒng)構(gòu)建新的細(xì)粒度 VCMR 基準(zhǔn)數(shù)據(jù)集（Charades-FIG、DiDeMo-FIG 和 ActivityNet-FIG

原文鏈接：NeurIPS 2024 | 消除多對(duì)多問題，清華提出大規(guī)模細(xì)粒度視頻片段標(biāo)注新范式VERIFIED