多模態LLM視覺推理能力堪憂，浙大領銜用GPT-4合成數據構建多模態基準

AIGC動態歡迎閱讀

原標題：多模態LLM視覺推理能力堪憂，浙大領銜用GPT-4合成數據構建多模態基準
關鍵字：模型,數據,圖像,視覺,代碼
文章來源：新智元
內容字數：0字

內容摘要：

新智元報道編輯：喬楊
【新智元導讀】LLM的數學推理能力缺陷得到了很多研究的關注，但最近浙大、中科院等機構的學者們提出，先進模型在視覺推理方面同樣不足。為此他們提出了一種多模態的視覺推理基準，并設計了一種新穎的數據合成方法。無論是語言模型還是視覺模型，似乎都很難完成更抽象層次上的理解和推理任務。
語言模型已經可以寫詩寫小說了，但是依舊算不對9.11和9.9比大小的問題。
同樣的問題也出現在視覺模型中，它們能完美理解自然景色或人物照片，卻無法處理各種圖表任務，甚至看表讀時間都是難題。
如果要將AI系統用在更多專業領域，這些能力缺陷就顯得極為突出。
最近，浙江大學、中科院軟件研究所、上海科技大學等機構就聯合提出了一種新的多模態基準，專門衡量模型對抽象圖像的理解能力和視覺推理能力。
論文地址：https://arxiv.org/pdf/2407.07053
數據集共包含11,193個帶有相關問題的抽象圖像，涵蓋了儀表板、路線圖、圖表、表格、流程圖、關系圖、視覺謎題和2D平面圖等8大類別，此外還有額外的62,476條數據用于微調模型。
經過測試，人類在該基準上可以達到至少82.1%的準確率，

原文鏈接：多模態LLM視覺推理能力堪憂，浙大領銜用GPT-4合成數據構建多模態基準