單卡3090幫你一口氣看完《黑悟空》,港大百度打造超長視頻理解引擎VideoRAG
研究團(tuán)隊還建立了全新的 LongerVideos 基準(zhǔn)數(shù)據(jù)集。
原標(biāo)題:單卡3090幫你一口氣看完《黑悟空》,港大百度打造超長視頻理解引擎VideoRAG
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):8225字
VideoRAG:高效理解數(shù)百小時超長視頻的創(chuàng)新框架
本文介紹了來自香港大學(xué)黃超教授實(shí)驗(yàn)室的最新科研成果——VideoRAG,一個用于高效理解超長視頻的創(chuàng)新框架。該框架突破了現(xiàn)有技術(shù)在超長視頻理解任務(wù)中的時長限制,僅需單張RTX 3090 GPU即可高效處理數(shù)百小時的視頻內(nèi)容。其核心在于創(chuàng)新的多模態(tài)知識索引框架和高效的檢索機(jī)制,使得VideoRAG能夠準(zhǔn)確理解并回答關(guān)于超長視頻的復(fù)雜問題。
1. 核心優(yōu)勢與研究背景
VideoRAG 的主要優(yōu)勢包括:高效理解數(shù)百小時超長視頻;將視頻內(nèi)容濃縮為結(jié)構(gòu)化的知識圖譜;采用多模態(tài)檢索以精準(zhǔn)響應(yīng)查詢;建立了全新的長視頻基準(zhǔn)數(shù)據(jù)集LongerVideos。 當(dāng)前的RAG(Retrieval-Augmented Generation)技術(shù)主要應(yīng)用于文本領(lǐng)域,在處理超長視頻時面臨跨視頻語義關(guān)聯(lián)和長時序依賴建模的挑戰(zhàn)。VideoRAG 通過解決這些挑戰(zhàn),實(shí)現(xiàn)了對超長視頻的全面理解。
2. 框架設(shè)計
VideoRAG采用雙通道多模態(tài)視頻知識索引架構(gòu),分別處理視頻的視覺、音頻和文本信息。視覺信息通過視覺語言模型(VLM)生成自然語言描述;音頻信息通過自動語音識別(ASR)轉(zhuǎn)錄成文本;然后,利用大語言模型(LLMs)構(gòu)建全局知識圖譜,建模跨視頻片段的語義關(guān)聯(lián)和時序依賴。在檢索階段,VideoRAG采用混合多模態(tài)檢索范式,結(jié)合知識圖譜和多模態(tài)特征嵌入,精準(zhǔn)識別與查詢相關(guān)的視頻片段。最后,利用LLMs整合檢索到的信息并生成最終的回答。
3. LongerVideos數(shù)據(jù)集與實(shí)驗(yàn)評估
研究團(tuán)隊構(gòu)建了LongerVideos基準(zhǔn)數(shù)據(jù)集,包含164個視頻,總時長超過134小時,涵蓋講座、紀(jì)錄片和娛樂等類別。該數(shù)據(jù)集支持對跨視頻推理能力的評估。在LongerVideos數(shù)據(jù)集上,VideoRAG在多個維度(全面性、賦能性、可信度、深度、信息密度)上顯著優(yōu)于現(xiàn)有RAG方法和支持超長視頻輸入的LVMs模型,證明了其卓越的長視頻理解能力。消融實(shí)驗(yàn)也驗(yàn)證了基于圖的索引和視覺信息處理的重要性。
4. 案例分析與結(jié)論
案例分析展示了VideoRAG在處理復(fù)雜查詢時的有效性,其能夠準(zhǔn)確提取相關(guān)信息并生成詳細(xì)、有據(jù)可依的答案,顯著優(yōu)于其他基線模型。總而言之,VideoRAG通過精確的視頻知識結(jié)構(gòu)構(gòu)建、高效的多模態(tài)信息檢索和強(qiáng)大的長視頻處理能力,為超長視頻理解提供了新的解決方案。
VideoRAG 的研究成果為超長視頻理解領(lǐng)域帶來了重大突破,為未來相關(guān)研究提供了寶貴的資源和新的方向。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺