首個多模態視頻競技場Video-MME來了！Gemini全面超越GPT-4o，Jeff Dean連轉三次

AIGC動態1年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：首個多模態視頻競技場Video-MME來了！Gemini全面超越GPT-4o，Jeff Dean連轉三次
關鍵字：視頻,數據,字幕,類型,問題
文章來源：新智元
內容字數：0字

內容摘要：

新智元報道編輯：alan 好困
【新智元導讀】近日，首個多模態LLM視頻分析綜合評估基準Video-MME誕生！在這場全新的考試中，Gemini 1.5 Pro一路遙遙領先，谷歌首席科學家Jeff Dean更是愉快地連續轉了3次推。大模型性能哪家強？GPT-4一家常霸榜。
基準測試全擅長，競技場上見真章。
不過近日，谷歌的Gemini終于揚眉吐氣了一把，在全新的、更復雜的多模態考試中大獲全勝，全面超越了GPT-4o。
Jeff Dean表示：已閱，很贊。這就是來自中科大，廈大，港大，北大，港中文和華師大的研究者聯合奉獻的，世界上首個多模態LLM視頻分析綜合評估基準——Video-MME。
論文地址：https://arxiv.org/pdf/2405.21075
項目地址：https://video-mme.github.io/
在前往AGI的道路上，多模態大語言模型（MLLM）顯然成為當前的焦點。
不久前出世的GPT-4o，就在多模態的表現上技驚四座；同時，偏愛谷歌「雙子座」的網友也不在少數。不過之前的相關基準測試，主要關注LLM在靜態圖像理解方面的能力。
而對于現實世界來說，處理

原文鏈接：首個多模態視頻競技場Video-MME來了！Gemini全面超越GPT-4o，Jeff Dean連轉三次