AIGC動態歡迎閱讀
原標題:智源聯合多所高校推出首個多任務長視頻評測基準 MLVU:GPT-4o 單選正確率不到 65%
關鍵字:視頻,騰訊,任務,模型,問題
文章來源:AI前線
內容字數:0字
內容摘要:
作者 | 智源研究院 MLVU 團隊
當前,研究社區亟需全面可靠的長視頻理解評估基準,以解決現有視頻理解評測基準在視頻長度不足、類型和任務單一等方面的局限性。因此,智源聯合北郵、北大和浙大等多所高校提出首個多任務長視頻理解評測基準 MLVU(A Comprehensive Benchmark for Multi-Task Long Video Understanding)。
MLVU 擁有充足且靈活可變的的視頻長度、包含多種長視頻來源、涵蓋多個不同維度的長視頻理解任務。通過對 20 個最新的流行多模態大模型(MLLM)評測發現,排名第一的 GPT-4o 的單選正確率不足 65%,揭示了現有模型在長視頻理解任務上仍然面臨重大挑戰。我們的實證研究還探討了多個影響大模型長視頻理解能力的關鍵因素,期待 MLVU 能夠推動社區對長視頻理解研究的發展。
論文標題:
MLVU: A Comprehensive Benchmark for Multi-Task Long Video Understanding
論文鏈接:
https://arxiv.org/abs/2406.04264
項目鏈接:
h
原文鏈接:智源聯合多所高校推出首個多任務長視頻評測基準 MLVU:GPT-4o 單選正確率不到 65%
聯系作者
文章來源:AI前線
作者微信:ai-front
作者簡介:面向AI愛好者、開發者和科學家,提供大模型最新資訊、AI技術分享干貨、一線業界實踐案例,助你全面擁抱AIGC。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...