智源聯(lián)合多所高校推出首個多任務(wù)長視頻評測基準 MLVU：GPT-4o 單選正確率不到 65%

AIGC動態(tài)1年前 (2024)發(fā)布 AI前線

AIGC動態(tài)歡迎閱讀

原標題：智源聯(lián)合多所高校推出首個多任務(wù)長視頻評測基準 MLVU：GPT-4o 單選正確率不到 65%
關(guān)鍵字：視頻,騰訊,任務(wù),模型,問題
文章來源：AI前線
內(nèi)容字數(shù)：0字

內(nèi)容摘要：

作者 | 智源研究院 MLVU 團隊
當(dāng)前，研究社區(qū)亟需全面可靠的長視頻理解評估基準，以解決現(xiàn)有視頻理解評測基準在視頻長度不足、類型和任務(wù)單一等方面的局限性。因此，智源聯(lián)合北郵、北大和浙大等多所高校提出首個多任務(wù)長視頻理解評測基準 MLVU（A Comprehensive Benchmark for Multi-Task Long Video Understanding）。
MLVU 擁有充足且靈活可變的的視頻長度、包含多種長視頻來源、涵蓋多個不同維度的長視頻理解任務(wù)。通過對 20 個最新的流行多模態(tài)大模型（MLLM）評測發(fā)現(xiàn)，排名第一的 GPT-4o 的單選正確率不足 65%，揭示了現(xiàn)有模型在長視頻理解任務(wù)上仍然面臨重大挑戰(zhàn)。我們的實證研究還探討了多個影響大模型長視頻理解能力的關(guān)鍵因素，期待 MLVU 能夠推動社區(qū)對長視頻理解研究的發(fā)展。
論文標題：
MLVU: A Comprehensive Benchmark for Multi-Task Long Video Understanding
論文鏈接：
https://arxiv.org/abs/2406.04264
項目鏈接：
h

原文鏈接：智源聯(lián)合多所高校推出首個多任務(wù)長視頻評測基準 MLVU：GPT-4o 單選正確率不到 65%