Gemini視頻推理遙遙領先GPT-4o，Jeff Dean連續轉發三次，首個視頻多模態基準Video-MME來了

AIGC動態1年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：Gemini視頻推理遙遙領先GPT-4o，Jeff Dean連續轉發三次，首個視頻多模態基準Video-MME來了
關鍵字：視頻,模型,字幕,能力,數據
文章來源：量子位
內容字數：0字

內容摘要：

夢晨發自凹非寺量子位 | 公眾號 QbitAIOpenAI和谷歌接連兩場發布會，把AI視頻推理卷到新高度。
但業界還缺少可以全面評估大模型視頻推理能力的基準。
終于，多模態大模型視頻分析綜合評估基準Video-MME，全面評估多模態大模型的綜合視頻理解能力，填補了這一領域的空白。
Gemini 1.5 Pro在這份榜單中遙遙領先，顯示出在視頻理解領域的“霸主”地位。Video-MME一經推出，被谷歌首席科學家Jeff Dean連續轉發了三次。
GPT-4o、谷歌Gemini 1.5 Pro標榜的視頻推理能力終于在全新的、更復雜的多模態基準Video-MME上首次得到了驗證。
同時，各大公司以及研究機構，例如NVIDIA、ByteDance等模型也加入了混戰。
Video-MME由中科大、廈大、港中文等高校聯合推出，代碼和數據集均已開源。
全人工標注高質量數據集該基準采取全人工標注，具有區別于現有數據集的顯著特點。在以下的例子中，準確回答該問題需要同時從視覺、字幕以及音頻中同時獲取信息，有效信息直接橫跨30分鐘的間隔：
Video-MME具有以下顯著特點：
時間維度的廣泛性：視頻時長

原文鏈接：Gemini視頻推理遙遙領先GPT-4o，Jeff Dean連續轉發三次，首個視頻多模態基準Video-MME來了