一句話精準(zhǔn)視頻片段定位!清華新方法拿下SOTA|已開源
AIGC動態(tài)歡迎閱讀
原標(biāo)題:一句話精準(zhǔn)視頻片段定位!清華新方法拿下SOTA|已開源
關(guān)鍵字:音頻,視覺,分支,文本,視頻
文章來源:量子位
內(nèi)容字?jǐn)?shù):5892字
內(nèi)容摘要:
陳厚倫 投稿量子位 | 公眾號 QbitAI只需一句話描述,就能在一大段視頻中定位到對應(yīng)片段!
比如描述“一個人一邊下樓梯一邊喝水”,通過視頻畫面和腳步聲的匹配,新方法一下子就能揪出對應(yīng)起止時間戳:
就連“大笑”這種語義難理解型的,也能準(zhǔn)確定位:
方法名為自適應(yīng)雙分支促進(jìn)網(wǎng)絡(luò)(ADPN),由清華大學(xué)研究團(tuán)隊提出。
具體來說,ADPN是用來完成一個叫做視頻片段定位(Temporal Sentence Grounding,TSG)的視覺-語言跨模態(tài)任務(wù),也就是根據(jù)查詢文本從視頻中定位到相關(guān)片段。
ADPN的特點(diǎn)在于能夠高效利用視頻中視覺和音頻模態(tài)的一致性與互補(bǔ)性來增強(qiáng)視頻片段定位性能。
相較其他利用音頻的TSG工作PMI-LOC、UMT,ADPN方法從音頻模態(tài)獲取了更顯著地性能提升,多項測試拿下新SOTA。
目前該工作已經(jīng)被ACM Multimedia 2023接收,且已完全開源。
一起來看看ADPN究竟是個啥~
一句話定位視頻片段視頻片段定位(Temporal Sentence Grounding,TSG)是一項重要的視覺-語言跨模態(tài)任務(wù)。
它的目的是根據(jù)自然語言查詢,在一個未剪輯的視頻
原文鏈接:一句話精準(zhǔn)視頻片段定位!清華新方法拿下SOTA|已開源
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破