研究團隊還建立了全新的 LongerVideos 基準數據集。
原標題:單卡3090幫你一口氣看完《黑悟空》,港大百度打造超長視頻理解引擎VideoRAG
文章來源:機器之心
內容字數:8225字
VideoRAG:高效理解數百小時超長視頻的創新框架
本文介紹了來自香港大學黃超教授實驗室的最新科研成果——VideoRAG,一個用于高效理解超長視頻的創新框架。該框架突破了現有技術在超長視頻理解任務中的時長限制,僅需單張RTX 3090 GPU即可高效處理數百小時的視頻內容。其核心在于創新的多模態知識索引框架和高效的檢索機制,使得VideoRAG能夠準確理解并回答關于超長視頻的復雜問題。
1. 核心優勢與研究背景
VideoRAG 的主要優勢包括:高效理解數百小時超長視頻;將視頻內容濃縮為結構化的知識圖譜;采用多模態檢索以精準響應查詢;建立了全新的長視頻基準數據集LongerVideos。 當前的RAG(Retrieval-Augmented Generation)技術主要應用于文本領域,在處理超長視頻時面臨跨視頻語義關聯和長時序依賴建模的挑戰。VideoRAG 通過解決這些挑戰,實現了對超長視頻的全面理解。
2. 框架設計
VideoRAG采用雙通道多模態視頻知識索引架構,分別處理視頻的視覺、音頻和文本信息。視覺信息通過視覺語言模型(VLM)生成自然語言描述;音頻信息通過自動語音識別(ASR)轉錄成文本;然后,利用大語言模型(LLMs)構建全局知識圖譜,建模跨視頻片段的語義關聯和時序依賴。在檢索階段,VideoRAG采用混合多模態檢索范式,結合知識圖譜和多模態特征嵌入,精準識別與查詢相關的視頻片段。最后,利用LLMs整合檢索到的信息并生成最終的回答。
3. LongerVideos數據集與實驗評估
研究團隊構建了LongerVideos基準數據集,包含164個視頻,總時長超過134小時,涵蓋講座、紀錄片和娛樂等類別。該數據集支持對跨視頻推理能力的評估。在LongerVideos數據集上,VideoRAG在多個維度(全面性、賦能性、可信度、深度、信息密度)上顯著優于現有RAG方法和支持超長視頻輸入的LVMs模型,證明了其卓越的長視頻理解能力。消融實驗也驗證了基于圖的索引和視覺信息處理的重要性。
4. 案例分析與結論
案例分析展示了VideoRAG在處理復雜查詢時的有效性,其能夠準確提取相關信息并生成詳細、有據可依的答案,顯著優于其他基線模型。總而言之,VideoRAG通過精確的視頻知識結構構建、高效的多模態信息檢索和強大的長視頻處理能力,為超長視頻理解提供了新的解決方案。
VideoRAG 的研究成果為超長視頻理解領域帶來了重大突破,為未來相關研究提供了寶貴的資源和新的方向。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺