智源聯(lián)合多所高校推出首個多任務(wù)長視頻評測基準 MLVU:GPT-4o 單選正確率不到 65%

AIGC動態(tài)歡迎閱讀
原標題:智源聯(lián)合多所高校推出首個多任務(wù)長視頻評測基準 MLVU:GPT-4o 單選正確率不到 65%
關(guān)鍵字:視頻,騰訊,任務(wù),模型,問題
文章來源:AI前線
內(nèi)容字數(shù):0字
內(nèi)容摘要:
作者 | 智源研究院 MLVU 團隊
當(dāng)前,研究社區(qū)亟需全面可靠的長視頻理解評估基準,以解決現(xiàn)有視頻理解評測基準在視頻長度不足、類型和任務(wù)單一等方面的局限性。因此,智源聯(lián)合北郵、北大和浙大等多所高校提出首個多任務(wù)長視頻理解評測基準 MLVU(A Comprehensive Benchmark for Multi-Task Long Video Understanding)。
MLVU 擁有充足且靈活可變的的視頻長度、包含多種長視頻來源、涵蓋多個不同維度的長視頻理解任務(wù)。通過對 20 個最新的流行多模態(tài)大模型(MLLM)評測發(fā)現(xiàn),排名第一的 GPT-4o 的單選正確率不足 65%,揭示了現(xiàn)有模型在長視頻理解任務(wù)上仍然面臨重大挑戰(zhàn)。我們的實證研究還探討了多個影響大模型長視頻理解能力的關(guān)鍵因素,期待 MLVU 能夠推動社區(qū)對長視頻理解研究的發(fā)展。
論文標題:
MLVU: A Comprehensive Benchmark for Multi-Task Long Video Understanding
論文鏈接:
https://arxiv.org/abs/2406.04264
項目鏈接:
h
原文鏈接:智源聯(lián)合多所高校推出首個多任務(wù)長視頻評測基準 MLVU:GPT-4o 單選正確率不到 65%
聯(lián)系作者
文章來源:AI前線
作者微信:ai-front
作者簡介:面向AI愛好者、開發(fā)者和科學(xué)家,提供大模型最新資訊、AI技術(shù)分享干貨、一線業(yè)界實踐案例,助你全面擁抱AIGC。

粵公網(wǎng)安備 44011502001135號