AIGC動態歡迎閱讀
原標題:多模態LLM視覺推理能力堪憂,浙大領銜用GPT-4合成數據構建多模態基準
關鍵字:模型,數據,圖像,視覺,代碼
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:喬楊
【新智元導讀】LLM的數學推理能力缺陷得到了很多研究的關注,但最近浙大、中科院等機構的學者們提出,先進模型在視覺推理方面同樣不足。為此他們提出了一種多模態的視覺推理基準,并設計了一種新穎的數據合成方法。無論是語言模型還是視覺模型,似乎都很難完成更抽象層次上的理解和推理任務。
語言模型已經可以寫詩寫小說了,但是依舊算不對9.11和9.9比大小的問題。
同樣的問題也出現在視覺模型中,它們能完美理解自然景色或人物照片,卻無法處理各種圖表任務,甚至看表讀時間都是難題。
如果要將AI系統用在更多專業領域,這些能力缺陷就顯得極為突出。
最近,浙江大學、中科院軟件研究所、上海科技大學等機構就聯合提出了一種新的多模態基準,專門衡量模型對抽象圖像的理解能力和視覺推理能力。
論文地址:https://arxiv.org/pdf/2407.07053
數據集共包含11,193個帶有相關問題的抽象圖像,涵蓋了儀表板、路線圖、圖表、表格、流程圖、關系圖、視覺謎題和2D平面圖等8大類別,此外還有額外的62,476條數據用于微調模型。
經過測試,人類在該基準上可以達到至少82.1%的準確率,
原文鏈接:多模態LLM視覺推理能力堪憂,浙大領銜用GPT-4合成數據構建多模態基準
聯系作者
文章來源:新智元
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...