GPT-4V只能排第二!華科大等發(fā)布多模態(tài)大模型新基準(zhǔn):五大任務(wù)14個(gè)模型全面測(cè)評(píng)
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:GPT-4V只能排第二!華科大等發(fā)布多模態(tài)大模型新基準(zhǔn):五大任務(wù)14個(gè)模型全面測(cè)評(píng)
關(guān)鍵字:數(shù)據(jù),文本,模型,本文,語(yǔ)義
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):13336字
內(nèi)容摘要:
新智元報(bào)道編輯:LRS 好困
【新智元導(dǎo)讀】華中科技大合華南理工大學(xué)、北京科技大學(xué)等機(jī)構(gòu)的研究人員對(duì)14個(gè)主流多模態(tài)大模型進(jìn)行了全面測(cè)評(píng),涵蓋5個(gè)任務(wù),27個(gè)數(shù)據(jù)集。近期,多模態(tài)大模型(LMMs)在視覺(jué)語(yǔ)言任務(wù)方面展示了令人印象深刻的能力。然而,由于多模態(tài)大模型的回答具有開(kāi)放性,如何準(zhǔn)確評(píng)估多模態(tài)大模型各個(gè)方面的性能成為一個(gè)迫切需要解決的問(wèn)題。
目前,一些方法采用GPT對(duì)答案進(jìn)行評(píng)分,但存在著不準(zhǔn)確和主觀性的問(wèn)題。另外一些方法則通過(guò)判斷題和多項(xiàng)選擇題來(lái)評(píng)估多模態(tài)大模型的能力。
然而,判斷題和選擇題只是在一系列參中選擇最佳答案,不能準(zhǔn)確反映多模態(tài)大模型完整識(shí)別圖像中文本的能力,目前還缺乏針對(duì)多模態(tài)大模型光學(xué)字符識(shí)別(OCR)能力的專(zhuān)門(mén)評(píng)測(cè)基準(zhǔn)。
近期,華中科技大學(xué)白翔團(tuán)隊(duì)聯(lián)合華南理工大學(xué)、北京科技大學(xué)、中科院和微軟研究院的研究人員對(duì)多模態(tài)大模型的OCR能力進(jìn)行了深入的研究。
并在27個(gè)公有數(shù)據(jù)集和2個(gè)生成的無(wú)語(yǔ)義和對(duì)比的有語(yǔ)義的數(shù)據(jù)集上對(duì)文字識(shí)別、場(chǎng)景文本VQA、文檔VQA、關(guān)鍵信息抽取和手寫(xiě)數(shù)學(xué)表達(dá)式識(shí)別這五個(gè)任務(wù)上進(jìn)行了廣泛的實(shí)驗(yàn)。論文鏈接:https://arxiv.o
原文鏈接:GPT-4V只能排第二!華科大等發(fā)布多模態(tài)大模型新基準(zhǔn):五大任務(wù)14個(gè)模型全面測(cè)評(píng)
聯(lián)系作者
文章來(lái)源:新智元
作者微信:AI_era
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類(lèi)社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。