AIGC動態歡迎閱讀
原標題:GPT-4o差點沒及格!首個多任務長視頻評測基準,它有億點難
關鍵字:視頻,任務,細節,問題,模型
文章來源:量子位
內容字數:0字
內容摘要:
MLVU團隊 投稿量子位 | 公眾號 QbitAI難度大升級的多任務長視頻理解評測基準MLVU來了!
由智源聯合北郵、北大和浙大等多所高校推出。
究竟有多難呢?最終排名第一的GPT-4o單選正確率還不足65%。
而且研究發現,大部分模型的性能都會隨著視頻時長增加顯著下降。
研究進一步證明,提升上下文窗口,提升圖像理解能力,以及使用更強大的LLM Backbone對長視頻理解的性能具有顯著的提升作用。
目前相關論文及數據集已公開,具體細節下面一起看看吧~
MLVU的構建過程當前流行的Video Benchmark主要針對短視頻設計,大部分視頻的長度都在1分鐘以內。
且現有評測基準往往專注在特定領域的視頻(例如電影、第一視角)和特定的視頻評測任務(例如Captioning,Temporal Perception,Action Understanding)。
此外,現有部分長視頻理解評測任務往往只和局部幀有關,或者針對經典電影進行問答,這導致MLLMs可以直接憑借text prompt正確回答而無需對視頻進行分析。
針對以上不足,新基準MLVU從以下3個層面進行構建:
時長和來源更豐富MLV
原文鏈接:GPT-4o差點沒及格!首個多任務長視頻評測基準,它有億點難
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...