MMBench-Video是一項(xiàng)創(chuàng)新的長(zhǎng)視頻多題問(wèn)答基準(zhǔn)測(cè)試,由浙江大學(xué)、上海人工智能實(shí)驗(yàn)室、上海交通大學(xué)以及香港中文大學(xué)共同開(kāi)發(fā)。這一基準(zhǔn)測(cè)試旨在全面評(píng)估大型視覺(jué)語(yǔ)言模型(LVLMs)在視頻理解方面的能力,利用包含豐富內(nèi)容和細(xì)粒度能力評(píng)估的長(zhǎng)視頻,解決了現(xiàn)有評(píng)估標(biāo)準(zhǔn)在時(shí)序理解及復(fù)雜任務(wù)處理上的不足。MMBench-Video涵蓋約600個(gè)YouTube視頻片段,涉及16個(gè)類(lèi)別,視頻長(zhǎng)度從30秒到6分鐘不等,配以由志愿者精心編寫(xiě)的高質(zhì)量問(wèn)答對(duì)。基準(zhǔn)測(cè)試借助GPT-4進(jìn)行自動(dòng)化評(píng)估,提升了準(zhǔn)確性,并與人類(lèi)判斷保持一致。MMBench-Video的推出,為研究人員提供了一種強(qiáng)大的工具,以評(píng)估和增強(qiáng)視頻語(yǔ)言模型的能力。
MMBench-Video是什么
MMBench-Video是一項(xiàng)全新的長(zhǎng)視頻多題問(wèn)答評(píng)測(cè)基準(zhǔn),由浙江大學(xué)、上海人工智能實(shí)驗(yàn)室、上海交通大學(xué)及香港中文大合研發(fā)。該平臺(tái)能夠全面評(píng)估大型視覺(jué)語(yǔ)言模型(LVLMs)在視頻理解能力方面的表現(xiàn),通過(guò)豐富的視頻內(nèi)容和細(xì)致的能力評(píng)估,彌補(bǔ)了目前基準(zhǔn)測(cè)試在時(shí)序理解及復(fù)雜任務(wù)處理上的短板。MMBench-Video包含約600個(gè)YouTube視頻片段,覆蓋16個(gè)不同類(lèi)別,每個(gè)視頻時(shí)長(zhǎng)從30秒到6分鐘不等,配備由志愿者撰寫(xiě)的高質(zhì)量問(wèn)答對(duì)。該基準(zhǔn)測(cè)試采用GPT-4進(jìn)行自動(dòng)評(píng)估,確保結(jié)果的準(zhǔn)確性并與人類(lèi)評(píng)判保持一致,為研究人員提供了有力的工具,助力視頻語(yǔ)言模型能力的評(píng)估與提升。
MMBench-Video的主要功能
- 視頻理解能力評(píng)估:評(píng)估大型視覺(jué)語(yǔ)言模型(LVLMs)在理解長(zhǎng)視頻內(nèi)容方面的表現(xiàn)。
- 多樣化場(chǎng)景覆蓋:涵蓋16個(gè)主要類(lèi)別的視頻內(nèi)容,涉及廣泛的主題和場(chǎng)景。
- 細(xì)致能力評(píng)估:通過(guò)26個(gè)細(xì)粒度的能力維度,對(duì)模型的視頻理解能力進(jìn)行深入分析。
- 高標(biāo)準(zhǔn)數(shù)據(jù)集:所有視頻片段和問(wèn)答對(duì)均由志愿者精心編寫(xiě)和標(biāo)注,以確保數(shù)據(jù)的高質(zhì)量。
- 自動(dòng)化評(píng)估機(jī)制:利用GPT-4進(jìn)行自動(dòng)評(píng)估,提高評(píng)估的效率和準(zhǔn)確性。
MMBench-Video的技術(shù)原理
- 長(zhǎng)視頻內(nèi)容:MMBench-Video包含多個(gè)從YouTube獲取的長(zhǎng)視頻片段,能夠更好地測(cè)試模型的時(shí)序理解能力。
- 人工標(biāo)注機(jī)制:所有問(wèn)題和答案均由人類(lèi)志愿者撰寫(xiě),確保高質(zhì)量并減少偏差。
- 能力分類(lèi)體系:建立了三層級(jí)的視頻理解能力分類(lèi)體系,包括感知和推理兩大類(lèi),以及更細(xì)分的26個(gè)能力維度。
- 時(shí)序推理挑戰(zhàn):設(shè)計(jì)需要時(shí)序推理能力的問(wèn)題,以評(píng)估模型對(duì)視頻內(nèi)容時(shí)間維度的理解。
- 自動(dòng)化性能評(píng)估:語(yǔ)言模型(如GPT-4)自動(dòng)評(píng)估模型輸出與標(biāo)準(zhǔn)答案之間的語(yǔ)義相似度,以評(píng)估模型性能。
- 多模型比較:支持對(duì)多種LVLMs進(jìn)行評(píng)分和比較,以識(shí)別在視頻理解任務(wù)中的優(yōu)勢(shì)和短板。
MMBench-Video的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):mmbench-video.github.io
- GitHub倉(cāng)庫(kù):https://github.com/open-compass/VLMEvalKit
- HuggingFace模型庫(kù):https://huggingface.co/datasets/opencompass/MMBench-Video
- arXiv技術(shù)論文:https://arxiv.org/pdf/2406.14515
MMBench-Video的應(yīng)用場(chǎng)景
- 模型評(píng)估與比較:研究人員可利用MMBench-Video評(píng)估和比較不同LVLMs在視頻理解方面的能力,包括感知和推理技能。
- 模型優(yōu)化與訓(xùn)練:開(kāi)發(fā)者可以依據(jù)MMBench-Video的評(píng)估結(jié)果,優(yōu)化模型的架構(gòu)和訓(xùn)練流程,以提升模型對(duì)視頻內(nèi)容的理解能力。
- 學(xué)術(shù)交流與發(fā)表:作為學(xué)術(shù)交流的工具,助力研究人員展示模型性能,并在學(xué)術(shù)會(huì)議或期刊上發(fā)表相關(guān)研究成果。
- 多模態(tài)學(xué)習(xí)研究:MMBench-Video提供豐富的數(shù)據(jù)集,支持多模態(tài)學(xué)習(xí)算法的研究與開(kāi)發(fā),特別是涉及視頻和文本理解的任務(wù)。
- 智能視頻分析應(yīng)用:在智能視頻監(jiān)控、內(nèi)容過(guò)濾、自動(dòng)摘要和視頻推薦等領(lǐng)域,幫助開(kāi)發(fā)者訓(xùn)練和測(cè)試更為精準(zhǔn)的視頻分析模型。
常見(jiàn)問(wèn)題
- MMBench-Video的目標(biāo)是什么?:MMBench-Video旨在評(píng)估大型視覺(jué)語(yǔ)言模型在長(zhǎng)視頻理解方面的能力,提供高質(zhì)量的數(shù)據(jù)集和評(píng)估工具。
- 如何參與MMBench-Video的研究?:研究人員可以訪問(wèn)項(xiàng)目官網(wǎng)或GitHub倉(cāng)庫(kù),獲取數(shù)據(jù)集并參與評(píng)估和比較研究。
- MMBench-Video適用于哪些領(lǐng)域?:MMBench-Video廣泛適用于學(xué)術(shù)研究、模型開(kāi)發(fā)、視頻分析等多個(gè)領(lǐng)域。