NeurIPS 2024 | 消除多對(duì)多問題,清華提出大規(guī)模細(xì)粒度視頻片段標(biāo)注新范式VERIFIED
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:NeurIPS 2024 | 消除多對(duì)多問題,清華提出大規(guī)模細(xì)粒度視頻片段標(biāo)注新范式VERIFIED
關(guān)鍵字:視頻,模型,數(shù)據(jù),文本,片段
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com陳厚倫,清華大學(xué)計(jì)算機(jī)系媒體所的二年級(jí)博士生,主要研究方向是多模態(tài)大模型與視頻理解 ,在 NeurIPS 、ACM Multimedia 等頂級(jí)會(huì)議發(fā)表多篇論文,曾獲國家獎(jiǎng)學(xué)金、北京市優(yōu)秀本科畢業(yè)生等。
視頻內(nèi)容的快速增長給視頻檢索技術(shù),特別是細(xì)粒度視頻片段檢索(VCMR),帶來了巨大挑戰(zhàn)。VCMR 要求系統(tǒng)根據(jù)文本查詢從視頻庫中精準(zhǔn)定位視頻中的匹配片段,需具備跨模態(tài)理解和細(xì)粒度視頻理解能力。
然而,現(xiàn)有研究多局限于粗粒度理解,難以應(yīng)對(duì)細(xì)粒度查詢。為此,來自清華大學(xué)的研究者提出自動(dòng)化視頻 – 文本細(xì)粒度標(biāo)注系統(tǒng) VERIFIED,并基于此系統(tǒng)構(gòu)建新的細(xì)粒度 VCMR 基準(zhǔn)數(shù)據(jù)集(Charades-FIG、DiDeMo-FIG 和 ActivityNet-FIG
原文鏈接:NeurIPS 2024 | 消除多對(duì)多問題,清華提出大規(guī)模細(xì)粒度視頻片段標(biāo)注新范式VERIFIED
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介: