GPT-4o差點(diǎn)沒及格!首個(gè)多任務(wù)長視頻評(píng)測基準(zhǔn),它有億點(diǎn)難
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:GPT-4o差點(diǎn)沒及格!首個(gè)多任務(wù)長視頻評(píng)測基準(zhǔn),它有億點(diǎn)難
關(guān)鍵字:視頻,任務(wù),細(xì)節(jié),問題,模型
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
MLVU團(tuán)隊(duì) 投稿量子位 | 公眾號(hào) QbitAI難度大升級(jí)的多任務(wù)長視頻理解評(píng)測基準(zhǔn)MLVU來了!
由智源聯(lián)合北郵、北大和浙大等多所高校推出。
究竟有多難呢?最終排名第一的GPT-4o單選正確率還不足65%。
而且研究發(fā)現(xiàn),大部分模型的性能都會(huì)隨著視頻時(shí)長增加顯著下降。
研究進(jìn)一步證明,提升上下文窗口,提升圖像理解能力,以及使用更強(qiáng)大的LLM Backbone對(duì)長視頻理解的性能具有顯著的提升作用。
目前相關(guān)論文及數(shù)據(jù)集已公開,具體細(xì)節(jié)下面一起看看吧~
MLVU的構(gòu)建過程當(dāng)前流行的Video Benchmark主要針對(duì)短視頻設(shè)計(jì),大部分視頻的長度都在1分鐘以內(nèi)。
且現(xiàn)有評(píng)測基準(zhǔn)往往專注在特定領(lǐng)域的視頻(例如電影、第一視角)和特定的視頻評(píng)測任務(wù)(例如Captioning,Temporal Perception,Action Understanding)。
此外,現(xiàn)有部分長視頻理解評(píng)測任務(wù)往往只和局部幀有關(guān),或者針對(duì)經(jīng)典電影進(jìn)行問答,這導(dǎo)致MLLMs可以直接憑借text prompt正確回答而無需對(duì)視頻進(jìn)行分析。
針對(duì)以上不足,新基準(zhǔn)MLVU從以下3個(gè)層面進(jìn)行構(gòu)建:
時(shí)長和來源更豐富MLV
原文鏈接:GPT-4o差點(diǎn)沒及格!首個(gè)多任務(wù)長視頻評(píng)測基準(zhǔn),它有億點(diǎn)難
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破