GPT-4o僅排第二！北大港大等6所高校聯(lián)手，發(fā)布權(quán)威多模態(tài)大模型榜單！

AIGC動態(tài)1年前 (2024)發(fā)布夕小瑤科技說

AIGC動態(tài)歡迎閱讀

原標題：GPT-4o僅排第二！北大港大等6所高校聯(lián)手，發(fā)布權(quán)威多模態(tài)大模型榜單！
關(guān)鍵字：視頻,模型,字幕,音頻,問題
文章來源：夕小瑤科技說
內(nèi)容字數(shù)：0字

內(nèi)容摘要：

夕小瑤科技說原創(chuàng)作者 | 謝年年多模態(tài)大模型視頻分析能力榜單出爐：
Gemini 1.5 Pro最強，GPT-4o僅排第二？曾經(jīng)紅極一時的GPT-4V屈居第三。
最近，北大港大等6所高校聯(lián)手，發(fā)布首個專為視頻分析設(shè)計的多模態(tài)大模型評估基準——Video-MME。在該基準中，冠軍Gemini 1.5 Pro甩開第二名GPT-4o近10分，第三名GPT-4V近15分。
而在開源模型中，最高分為LLaVA-NeXT-Video，但總體準確率只有52.5%，遠遠不及商業(yè)模型，還有較大提升空間。
論文標題:Video-MME: The First-Ever Comprehensive
Evaluation Benchmark of Multi-modal LLMs in Video Analysis
論文鏈接：https://arxiv.org/pdf/2405.21075
Video-MME是首個專為視頻分析設(shè)計的多模態(tài)大模型評估基準，包含900段視頻，并為每段視頻設(shè)計了2,700個高質(zhì)量的多選題，如下圖例子所示：
Video-MME涵蓋6大視覺領(lǐng)域，包括知識、電影與電視、體育競賽、藝術(shù)表

原文鏈接：GPT-4o僅排第二！北大港大等6所高校聯(lián)手，發(fā)布權(quán)威多模態(tài)大模型榜單！

聯(lián)系作者

文章來源：夕小瑤科技說
作者微信：xixiaoyaoQAQ
作者簡介：專業(yè)、有趣、深度價值導(dǎo)向的科技媒體。聚集30萬AI工程師、研究員，覆蓋500多家海內(nèi)外機構(gòu)投資人，互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來自清北、國內(nèi)外頂級AI實驗室和大廠，兼?zhèn)涿翡J的行業(yè)嗅覺和洞察深度。商務(wù)合作：zym5189

閱讀原文