GPT-4o僅排第二!北大港大等6所高校聯(lián)手,發(fā)布權(quán)威多模態(tài)大模型榜單!
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:GPT-4o僅排第二!北大港大等6所高校聯(lián)手,發(fā)布權(quán)威多模態(tài)大模型榜單!
關(guān)鍵字:視頻,模型,字幕,音頻,問題
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
夕小瑤科技說 原創(chuàng)作者 | 謝年年多模態(tài)大模型視頻分析能力榜單出爐:
Gemini 1.5 Pro最強(qiáng),GPT-4o僅排第二? 曾經(jīng)紅極一時(shí)的GPT-4V屈居第三。
最近,北大港大等6所高校聯(lián)手,發(fā)布首個(gè)專為視頻分析設(shè)計(jì)的多模態(tài)大模型評(píng)估基準(zhǔn)——Video-MME。在該基準(zhǔn)中,冠軍Gemini 1.5 Pro甩開第二名GPT-4o近10分,第三名GPT-4V近15分。
而在開源模型中,最高分為L(zhǎng)LaVA-NeXT-Video,但總體準(zhǔn)確率只有52.5%,遠(yuǎn)遠(yuǎn)不及商業(yè)模型,還有較大提升空間。
論文標(biāo)題:Video-MME: The First-Ever Comprehensive
Evaluation Benchmark of Multi-modal LLMs in Video Analysis
論文鏈接:https://arxiv.org/pdf/2405.21075
Video-MME是首個(gè)專為視頻分析設(shè)計(jì)的多模態(tài)大模型評(píng)估基準(zhǔn),包含900段視頻,并為每段視頻設(shè)計(jì)了2,700個(gè)高質(zhì)量的多選題,如下圖例子所示:
Video-MME涵蓋6大視覺領(lǐng)域,包括知識(shí)、電影與電視、體育競(jìng)賽、藝術(shù)表
原文鏈接:GPT-4o僅排第二!北大港大等6所高校聯(lián)手,發(fā)布權(quán)威多模態(tài)大模型榜單!
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡(jiǎn)介:專業(yè)、有趣、深度價(jià)值導(dǎo)向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內(nèi)外機(jī)構(gòu)投資人,互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來自清北、國(guó)內(nèi)外頂級(jí)AI實(shí)驗(yàn)室和大廠,兼?zhèn)涿翡J的行業(yè)嗅覺和洞察深度。商務(wù)合作:zym5189