AIGC動態歡迎閱讀
原標題:ICLR 2024 Oral:長視頻中噪聲關聯學習,單卡訓練僅需1天
關鍵字:視頻,片段,文本,標題,噪聲
文章來源:機器之心
內容字數:8058字
內容摘要:
機器之心專欄
作者:林義杰在 2024 世界經濟論壇的一次會談中,圖靈獎得主 Yann LeCun 提出用來處理視頻的模型應該學會在抽象的表征空間中進行預測,而不是具體的像素空間 [1]。借助文本信息的多模態視頻表征學習可抽取利于視頻理解或內容生成的特征,正是促進該過程的關鍵技術。
然而,當下視頻與文本描述間廣泛存在的噪聲關聯現象嚴重阻礙了視頻表征學習。因此本文中,研究者基于最優傳輸理論,提出魯棒的長視頻學習方案以應對該挑戰。該論文被機器學習頂會ICLR 2024接收為了 Oral。論文題目:Multi-granularity Correspondence Learning from Long-term Noisy Videos
論文地址:https://openreview.net/pdf?id=9Cu8MRmhq2
項目地址:https://lin-yijie.github.io/projects/Norton
代碼地址:https://github.com/XLearning-SCU/2024-ICLR-Norton
背景與挑戰
視頻表征學習是多模態研究中最熱門的問題之一。大規模
原文鏈接:ICLR 2024 Oral:長視頻中噪聲關聯學習,單卡訓練僅需1天
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...