一句話精準視頻片段定位！清華新方法拿下SOTA｜已開源

AIGC動態2年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：一句話精準視頻片段定位！清華新方法拿下SOTA｜已開源
關鍵字：音頻,視覺,分支,文本,視頻
文章來源：量子位
內容字數：5892字

內容摘要：

陳厚倫投稿量子位 | 公眾號 QbitAI只需一句話描述，就能在一大段視頻中定位到對應片段！
比如描述“一個人一邊下樓梯一邊喝水”，通過視頻畫面和腳步聲的匹配，新方法一下子就能揪出對應起止時間戳：
就連“大笑”這種語義難理解型的，也能準確定位：
方法名為自適應雙分支促進網絡（ADPN），由清華大學研究團隊提出。
具體來說，ADPN是用來完成一個叫做視頻片段定位（Temporal Sentence Grounding，TSG）的視覺-語言跨模態任務，也就是根據查詢文本從視頻中定位到相關片段。
ADPN的特點在于能夠高效利用視頻中視覺和音頻模態的一致性與互補性來增強視頻片段定位性能。
相較其他利用音頻的TSG工作PMI-LOC、UMT，ADPN方法從音頻模態獲取了更顯著地性能提升，多項測試拿下新SOTA。
目前該工作已經被ACM Multimedia 2023接收，且已完全開源。
一起來看看ADPN究竟是個啥～
一句話定位視頻片段視頻片段定位（Temporal Sentence Grounding，TSG）是一項重要的視覺-語言跨模態任務。
它的目的是根據自然語言查詢，在一個未剪輯的視頻

原文鏈接：一句話精準視頻片段定位！清華新方法拿下SOTA｜已開源

聯系作者

文章來源：量子位
作者微信：QbitAI
作者簡介：追蹤人工智能新趨勢，關注科技行業新突破

閱讀原文

# AIGC動態 # 分支 # 文本 # 視覺 # 視頻 # 音頻

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

一句話精準視頻片段定位！清華新方法拿下SOTA｜已開源

AIGC動態歡迎閱讀

內容摘要：

聯系作者

因為它，馬斯克和兵馬俑都跳起了《科目三》

模型A：幸虧有你，我才不得0分，模型B：俺也一樣

相關文章

暫無評論

ChatGPT

玩虛擬模特？

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

一句話精準視頻片段定位！清華新方法拿下SOTA｜已開源

AIGC動態歡迎閱讀

內容摘要：

聯系作者

因為它，馬斯克和兵馬俑都跳起了《科目三》

模型A：幸虧有你，我才不得0分，模型B：俺也一樣

相關文章

暫無評論

ChatGPT

玩虛擬模特？

一句話精準視頻片段定位！清華新方法拿下SOTA｜已開源

因為它，馬斯克和兵馬俑都跳起了《科目三》

模型A：幸虧有你，我才不得0分，模型B：俺也一樣