AIGC動態歡迎閱讀
原標題:GPT-4V只能排第二!華科大等發布多模態大模型新基準:五大任務14個模型全面測評
關鍵字:數據,文本,模型,本文,語義
文章來源:新智元
內容字數:13336字
內容摘要:
新智元報道編輯:LRS 好困
【新智元導讀】華中科技大合華南理工大學、北京科技大學等機構的研究人員對14個主流多模態大模型進行了全面測評,涵蓋5個任務,27個數據集。近期,多模態大模型(LMMs)在視覺語言任務方面展示了令人印象深刻的能力。然而,由于多模態大模型的回答具有開放性,如何準確評估多模態大模型各個方面的性能成為一個迫切需要解決的問題。
目前,一些方法采用GPT對答案進行評分,但存在著不準確和主觀性的問題。另外一些方法則通過判斷題和多項選擇題來評估多模態大模型的能力。
然而,判斷題和選擇題只是在一系列參中選擇最佳答案,不能準確反映多模態大模型完整識別圖像中文本的能力,目前還缺乏針對多模態大模型光學字符識別(OCR)能力的專門評測基準。
近期,華中科技大學白翔團隊聯合華南理工大學、北京科技大學、中科院和微軟研究院的研究人員對多模態大模型的OCR能力進行了深入的研究。
并在27個公有數據集和2個生成的無語義和對比的有語義的數據集上對文字識別、場景文本VQA、文檔VQA、關鍵信息抽取和手寫數學表達式識別這五個任務上進行了廣泛的實驗。論文鏈接:https://arxiv.o
原文鏈接:GPT-4V只能排第二!華科大等發布多模態大模型新基準:五大任務14個模型全面測評
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...