AIGC動態歡迎閱讀
原標題:Gemini視頻推理遙遙領先GPT-4o,Jeff Dean連續轉發三次,首個視頻多模態基準Video-MME來了
關鍵字:視頻,模型,字幕,能力,數據
文章來源:量子位
內容字數:0字
內容摘要:
夢晨 發自 凹非寺量子位 | 公眾號 QbitAIOpenAI和谷歌接連兩場發布會,把AI視頻推理卷到新高度。
但業界還缺少可以全面評估大模型視頻推理能力的基準。
終于,多模態大模型視頻分析綜合評估基準Video-MME,全面評估多模態大模型的綜合視頻理解能力,填補了這一領域的空白。
Gemini 1.5 Pro在這份榜單中遙遙領先,顯示出在視頻理解領域的“霸主”地位。Video-MME一經推出,被谷歌首席科學家Jeff Dean連續轉發了三次。
GPT-4o、谷歌Gemini 1.5 Pro標榜的視頻推理能力終于在全新的、更復雜的多模態基準Video-MME上首次得到了驗證。
同時,各大公司以及研究機構,例如NVIDIA、ByteDance等模型也加入了混戰。
Video-MME由中科大、廈大、港中文等高校聯合推出,代碼和數據集均已開源。
全人工標注高質量數據集該基準采取全人工標注,具有區別于現有數據集的顯著特點。在以下的例子中,準確回答該問題需要同時從視覺、字幕以及音頻中同時獲取信息,有效信息直接橫跨30分鐘的間隔:
Video-MME具有以下顯著特點:
時間維度的廣泛性:視頻時長
原文鏈接:Gemini視頻推理遙遙領先GPT-4o,Jeff Dean連續轉發三次,首個視頻多模態基準Video-MME來了
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...