GPT-4o僅排第二!北大港大等6所高校聯(lián)手,發(fā)布權(quán)威多模態(tài)大模型榜單!

AIGC動態(tài)歡迎閱讀
原標題:GPT-4o僅排第二!北大港大等6所高校聯(lián)手,發(fā)布權(quán)威多模態(tài)大模型榜單!
關(guān)鍵字:視頻,模型,字幕,音頻,問題
文章來源:夕小瑤科技說
內(nèi)容字數(shù):0字
內(nèi)容摘要:
夕小瑤科技說 原創(chuàng)作者 | 謝年年多模態(tài)大模型視頻分析能力榜單出爐:
Gemini 1.5 Pro最強,GPT-4o僅排第二? 曾經(jīng)紅極一時的GPT-4V屈居第三。
最近,北大港大等6所高校聯(lián)手,發(fā)布首個專為視頻分析設(shè)計的多模態(tài)大模型評估基準——Video-MME。在該基準中,冠軍Gemini 1.5 Pro甩開第二名GPT-4o近10分,第三名GPT-4V近15分。
而在開源模型中,最高分為LLaVA-NeXT-Video,但總體準確率只有52.5%,遠遠不及商業(yè)模型,還有較大提升空間。
論文標題:Video-MME: The First-Ever Comprehensive
Evaluation Benchmark of Multi-modal LLMs in Video Analysis
論文鏈接:https://arxiv.org/pdf/2405.21075
Video-MME是首個專為視頻分析設(shè)計的多模態(tài)大模型評估基準,包含900段視頻,并為每段視頻設(shè)計了2,700個高質(zhì)量的多選題,如下圖例子所示:
Video-MME涵蓋6大視覺領(lǐng)域,包括知識、電影與電視、體育競賽、藝術(shù)表
原文鏈接:GPT-4o僅排第二!北大港大等6所高校聯(lián)手,發(fā)布權(quán)威多模態(tài)大模型榜單!
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:專業(yè)、有趣、深度價值導(dǎo)向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內(nèi)外機構(gòu)投資人,互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來自清北、國內(nèi)外頂級AI實驗室和大廠,兼?zhèn)涿翡J的行業(yè)嗅覺和洞察深度。商務(wù)合作:zym5189

粵公網(wǎng)安備 44011502001135號