AIGC動態歡迎閱讀
原標題:突破短視頻局限!MMBench 團隊構建中長視頻開放問答評測基準,全面評估多模態大模型視頻理解能力
關鍵字:模型,視頻,基準,能力,時序
文章來源:量子位
內容字數:0字
內容摘要:
新宇投稿 凹非寺量子位 | 公眾號 QbitAIGPT-4o 四月發布會掀起了視頻理解的熱潮,而開源領軍者Qwen2也對視頻毫不手軟,在各個視頻評測基準上狠狠秀了一把肌肉。
但當前的大部分評測基準仍然具有以下幾個缺陷:
多注重于短視頻,視頻長度或視頻鏡頭數不足,難以考察到模型的長時序理解能力;
對模型的考察局限在部分較為簡單的任務,更多細粒度的能力未被大部分基準所涉及到;
現有的基準仍可以僅憑單幀圖像以獲取較高的分數,說明問題和畫面的時序性關聯不強;
對開放性問題的評估仍舊采用較舊的GPT-3.5,打分和人類偏好有較大的偏差且并不準確,容易高估模型性能。
針對這些問題,有沒有對應的基準能夠較好解決這些問題呢?
在最新的NeurIPS D&B 2024中由浙江大合上海人工智能實驗室,上海交通大學和香港中文大學提出的MMBench-Video打造了一個全面的開放性視頻理解評測基準,并針對當前主流MLLM構建了開源的視頻理解能力評估榜單。
全能力鏈條覆蓋高質量數據集
MMBench-Video這一視頻理解評測基準采取全人工標注,歷經一次標注和二次質量核驗,視頻種類豐富且質量高,問答涵蓋模
原文鏈接:突破短視頻局限!MMBench 團隊構建中長視頻開放問答評測基準,全面評估多模態大模型視頻理解能力
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...