GPT-4V只能排第二！華科大等發(fā)布多模態(tài)大模型新基準(zhǔn)：五大任務(wù)14個(gè)模型全面測(cè)評(píng)

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布新智元

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：GPT-4V只能排第二！華科大等發(fā)布多模態(tài)大模型新基準(zhǔn)：五大任務(wù)14個(gè)模型全面測(cè)評(píng)
關(guān)鍵字：數(shù)據(jù),文本,模型,本文,語(yǔ)義
文章來(lái)源：新智元
內(nèi)容字?jǐn)?shù)：13336字

內(nèi)容摘要：

新智元報(bào)道編輯：LRS 好困
【新智元導(dǎo)讀】華中科技大合華南理工大學(xué)、北京科技大學(xué)等機(jī)構(gòu)的研究人員對(duì)14個(gè)主流多模態(tài)大模型進(jìn)行了全面測(cè)評(píng)，涵蓋5個(gè)任務(wù)，27個(gè)數(shù)據(jù)集。近期，多模態(tài)大模型（LMMs）在視覺(jué)語(yǔ)言任務(wù)方面展示了令人印象深刻的能力。然而，由于多模態(tài)大模型的回答具有開(kāi)放性，如何準(zhǔn)確評(píng)估多模態(tài)大模型各個(gè)方面的性能成為一個(gè)迫切需要解決的問(wèn)題。
目前，一些方法采用GPT對(duì)答案進(jìn)行評(píng)分，但存在著不準(zhǔn)確和主觀性的問(wèn)題。另外一些方法則通過(guò)判斷題和多項(xiàng)選擇題來(lái)評(píng)估多模態(tài)大模型的能力。
然而，判斷題和選擇題只是在一系列參中選擇最佳答案，不能準(zhǔn)確反映多模態(tài)大模型完整識(shí)別圖像中文本的能力，目前還缺乏針對(duì)多模態(tài)大模型光學(xué)字符識(shí)別（OCR）能力的專(zhuān)門(mén)評(píng)測(cè)基準(zhǔn)。
近期，華中科技大學(xué)白翔團(tuán)隊(duì)聯(lián)合華南理工大學(xué)、北京科技大學(xué)、中科院和微軟研究院的研究人員對(duì)多模態(tài)大模型的OCR能力進(jìn)行了深入的研究。
并在27個(gè)公有數(shù)據(jù)集和2個(gè)生成的無(wú)語(yǔ)義和對(duì)比的有語(yǔ)義的數(shù)據(jù)集上對(duì)文字識(shí)別、場(chǎng)景文本VQA、文檔VQA、關(guān)鍵信息抽取和手寫(xiě)數(shù)學(xué)表達(dá)式識(shí)別這五個(gè)任務(wù)上進(jìn)行了廣泛的實(shí)驗(yàn)。論文鏈接：https://arxiv.o

原文鏈接：GPT-4V只能排第二！華科大等發(fā)布多模態(tài)大模型新基準(zhǔn)：五大任務(wù)14個(gè)模型全面測(cè)評(píng)

聯(lián)系作者

文章來(lái)源：新智元
作者微信：AI_era
作者簡(jiǎn)介：智能+中國(guó)主平臺(tái)，致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展，關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類(lèi)社會(huì)與文明進(jìn)化的影響，領(lǐng)航中國(guó)新智能時(shí)代。

閱讀原文