GPT-4o差點(diǎn)沒(méi)及格!首個(gè)多任務(wù)長(zhǎng)視頻評(píng)測(cè)基準(zhǔn),它有億點(diǎn)難
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:GPT-4o差點(diǎn)沒(méi)及格!首個(gè)多任務(wù)長(zhǎng)視頻評(píng)測(cè)基準(zhǔn),它有億點(diǎn)難
關(guān)鍵字:視頻,任務(wù),細(xì)節(jié),問(wèn)題,模型
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
MLVU團(tuán)隊(duì) 投稿量子位 | 公眾號(hào) QbitAI難度大升級(jí)的多任務(wù)長(zhǎng)視頻理解評(píng)測(cè)基準(zhǔn)MLVU來(lái)了!
由智源聯(lián)合北郵、北大和浙大等多所高校推出。
究竟有多難呢?最終排名第一的GPT-4o單選正確率還不足65%。
而且研究發(fā)現(xiàn),大部分模型的性能都會(huì)隨著視頻時(shí)長(zhǎng)增加顯著下降。
研究進(jìn)一步證明,提升上下文窗口,提升圖像理解能力,以及使用更強(qiáng)大的LLM Backbone對(duì)長(zhǎng)視頻理解的性能具有顯著的提升作用。
目前相關(guān)論文及數(shù)據(jù)集已公開(kāi),具體細(xì)節(jié)下面一起看看吧~
MLVU的構(gòu)建過(guò)程當(dāng)前流行的Video Benchmark主要針對(duì)短視頻設(shè)計(jì),大部分視頻的長(zhǎng)度都在1分鐘以內(nèi)。
且現(xiàn)有評(píng)測(cè)基準(zhǔn)往往專注在特定領(lǐng)域的視頻(例如電影、第一視角)和特定的視頻評(píng)測(cè)任務(wù)(例如Captioning,Temporal Perception,Action Understanding)。
此外,現(xiàn)有部分長(zhǎng)視頻理解評(píng)測(cè)任務(wù)往往只和局部幀有關(guān),或者針對(duì)經(jīng)典電影進(jìn)行問(wèn)答,這導(dǎo)致MLLMs可以直接憑借text prompt正確回答而無(wú)需對(duì)視頻進(jìn)行分析。
針對(duì)以上不足,新基準(zhǔn)MLVU從以下3個(gè)層面進(jìn)行構(gòu)建:
時(shí)長(zhǎng)和來(lái)源更豐富MLV
原文鏈接:GPT-4o差點(diǎn)沒(méi)及格!首個(gè)多任務(wù)長(zhǎng)視頻評(píng)測(cè)基準(zhǔn),它有億點(diǎn)難
聯(lián)系作者
文章來(lái)源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破