AI也會「刷抖音」！清華領(lǐng)銜發(fā)布短視頻全模態(tài)理解新模型 | ICML 2024

AIGC動態(tài)1年前 (2024)發(fā)布新智元

AIGC動態(tài)歡迎閱讀

原標題：AI也會「刷抖音」！清華領(lǐng)銜發(fā)布短視頻全模態(tài)理解新模型 | ICML 2024
關(guān)鍵字：視頻,語音,模型,解讀,音頻
文章來源：新智元
內(nèi)容字數(shù)：0字

內(nèi)容摘要：

新智元報道編輯：LRST 好困
【新智元導讀】音視頻大語言模型在處理視頻內(nèi)容時，往往未能充分發(fā)揮語音的作用。video-SALMONN模型通過三部分創(chuàng)新：音視頻編碼和時間對齊、多分辨率因果Q-Former、多樣性損失函數(shù)和混合未配對音視頻數(shù)據(jù)訓練。該模型不僅在單一模態(tài)任務上表現(xiàn)優(yōu)異，更在視聽聯(lián)合任務中展現(xiàn)了卓越的性能，證明了其全面性和準確性。想要看懂短視頻，除了視覺內(nèi)容外，語音和音頻等聽覺信息，如視頻音樂、音效、語音內(nèi)容等，也對短視頻的理解起到關(guān)鍵作用。
音視頻大語言模型（av-LLMs）在近幾年取得了顯著進展，但語音作為視頻中人類語言的主要載體，仍未在這些模型中得到充分探索。語音不僅提供了豐富的語言和語義信息，還有助于理解視頻中的情感和潛在意義。
與此同時，語音信號還包含豐富的副語言信息，如音調(diào)和音高，以及多樣的說話者屬性（如年齡、性別、口音和身份），這些都是視頻理解中不可或缺的要素。
然而，增強通用視聽大語言模型的語音能力極具挑戰(zhàn)性，這需要時間上精細的建模，并在粗略（如視頻主題）和精細（如唇部動作）時間尺度上與其他模態(tài)進行復雜的交互。
近期，發(fā)表在ICML 2024的論文《vid

原文鏈接：AI也會「刷抖音」！清華領(lǐng)銜發(fā)布短視頻全模態(tài)理解新模型 | ICML 2024