突破短視頻局限！MMBench 團隊構建中長視頻開放問答評測基準，全面評估多模態大模型視頻理解能力

AIGC動態歡迎閱讀

原標題：突破短視頻局限！MMBench 團隊構建中長視頻開放問答評測基準，全面評估多模態大模型視頻理解能力
關鍵字：模型,視頻,基準,能力,時序
文章來源：量子位
內容字數：0字

內容摘要：

新宇投稿凹非寺量子位 | 公眾號 QbitAIGPT-4o 四月發布會掀起了視頻理解的熱潮，而開源領軍者Qwen2也對視頻毫不手軟，在各個視頻評測基準上狠狠秀了一把肌肉。
但當前的大部分評測基準仍然具有以下幾個缺陷：
多注重于短視頻，視頻長度或視頻鏡頭數不足，難以考察到模型的長時序理解能力；
對模型的考察局限在部分較為簡單的任務，更多細粒度的能力未被大部分基準所涉及到；
現有的基準仍可以僅憑單幀圖像以獲取較高的分數，說明問題和畫面的時序性關聯不強；
對開放性問題的評估仍舊采用較舊的GPT-3.5，打分和人類偏好有較大的偏差且并不準確，容易高估模型性能。
針對這些問題，有沒有對應的基準能夠較好解決這些問題呢？
在最新的NeurIPS D&B 2024中由浙江大合上海人工智能實驗室，上海交通大學和香港中文大學提出的MMBench-Video打造了一個全面的開放性視頻理解評測基準，并針對當前主流MLLM構建了開源的視頻理解能力評估榜單。
全能力鏈條覆蓋高質量數據集
MMBench-Video這一視頻理解評測基準采取全人工標注，歷經一次標注和二次質量核驗，視頻種類豐富且質量高，問答涵蓋模

原文鏈接：突破短視頻局限！MMBench 團隊構建中長視頻開放問答評測基準，全面評估多模態大模型視頻理解能力