全華人團隊推出多模態(tài)大模型新基準，GPT-4o準確率僅為65.5%，所有模型最易犯感知錯誤

AIGC動態(tài)歡迎閱讀

原標題：全華人團隊推出多模態(tài)大模型新基準，GPT-4o準確率僅為65.5%，所有模型最易犯感知錯誤
關鍵字：任務,模型,數(shù)據(jù),研究人員,視覺
文章來源：量子位
內(nèi)容字數(shù)：0字

內(nèi)容摘要：

王家豪投稿自凹非寺量子位 | 公眾號 QbitAIGPT-4o再次掀起多模態(tài)大模型的浪潮。
如果他們能以近似人類的熟練程度，在不同領域執(zhí)行廣泛的任務，這對許多領域帶來性進展。
因而，構建一個全面的評估基準測試就顯得格外重要。然而評估大型視覺語言模型能力的進程顯著落后于它們自身的發(fā)展。
來自上海AI Lab、香港大學、上海交大、浙江大學等多家機構提出了 MMT-Bench。
這是一個全方位的多模態(tài)基準測試，旨在全面評估大型視覺語言模型（LVLMs）在多模態(tài)多任務理解方面的表現(xiàn)。
研究團隊還對當前幾個代表的視覺大模型進行了能力評估，結果發(fā)現(xiàn)感知錯誤、推理錯誤是所有模型最常見的兩大錯誤。
多模態(tài)多任務AGI基準測試MMT-BenchMMT-Bench的廣度體現(xiàn)在三個方面。
首先，MMT-Bench數(shù)據(jù)經(jīng)過精心設計，包含32K個多選視覺語言問題，涵蓋了32個核心元任務和162個子任務，這比此前的評測數(shù)據(jù)集MMBench大8.1倍。
其次，MMT-Bench包含了13種圖像類型，如自然場景、合成圖像、深度圖、富文本圖像、繪畫、屏幕截圖、點云、醫(yī)學圖像等。這樣的圖片多樣性要求模型能夠解釋理

原文鏈接：全華人團隊推出多模態(tài)大模型新基準，GPT-4o準確率僅為65.5%，所有模型最易犯感知錯誤