AIGC動態歡迎閱讀
原標題:一句話精準視頻片段定位!清華新方法拿下SOTA|已開源
關鍵字:音頻,視覺,分支,文本,視頻
文章來源:量子位
內容字數:5892字
內容摘要:
陳厚倫 投稿量子位 | 公眾號 QbitAI只需一句話描述,就能在一大段視頻中定位到對應片段!
比如描述“一個人一邊下樓梯一邊喝水”,通過視頻畫面和腳步聲的匹配,新方法一下子就能揪出對應起止時間戳:
就連“大笑”這種語義難理解型的,也能準確定位:
方法名為自適應雙分支促進網絡(ADPN),由清華大學研究團隊提出。
具體來說,ADPN是用來完成一個叫做視頻片段定位(Temporal Sentence Grounding,TSG)的視覺-語言跨模態任務,也就是根據查詢文本從視頻中定位到相關片段。
ADPN的特點在于能夠高效利用視頻中視覺和音頻模態的一致性與互補性來增強視頻片段定位性能。
相較其他利用音頻的TSG工作PMI-LOC、UMT,ADPN方法從音頻模態獲取了更顯著地性能提升,多項測試拿下新SOTA。
目前該工作已經被ACM Multimedia 2023接收,且已完全開源。
一起來看看ADPN究竟是個啥~
一句話定位視頻片段視頻片段定位(Temporal Sentence Grounding,TSG)是一項重要的視覺-語言跨模態任務。
它的目的是根據自然語言查詢,在一個未剪輯的視頻
原文鏈接:一句話精準視頻片段定位!清華新方法拿下SOTA|已開源
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...