MLLM真能看懂數學嗎？MathVerse來了次摸底測評，放出當天登熱榜

AIGC動態2年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：MLLM真能看懂數學嗎？MathVerse來了次摸底測評，放出當天登熱榜
關鍵字：解讀,能力,數學,視覺,圖像
文章來源：機器之心
內容字數：6899字

內容摘要：

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報道了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯系報道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com。
1、背景
在大算力的數字化時代下，大語言模型（LLM）以其令人矚目的發展速度，正引領著技術的潮流。基于它們強大的文本理解和生成能力，各大研究機構正在探索如何將這些能力擴展至視覺領域，構建一個能夠理解和生成多模態內容的超級智能體 —— 多模態大語言模型（MLLMs）。
在追求通用視覺性能的道路上，社區內已經涌現出眾多精心設計的測評 benchmark。它們通常使用貼近日常生活的自然圖片作為樣例，為 MLLMs 的視覺能力提供全面的評估，如 MME、MMBench 等。然而，要深入了解 MLLMs 的 “思維” 和 “推理” 能力，僅憑通用視覺性能的測評遠遠不夠。多模態數學題求解能力，才是衡量它們深度認知和邏輯推理能力的真正試金石。
盡管如此，目前領域內依然缺

原文鏈接：MLLM真能看懂數學嗎？MathVerse來了次摸底測評，放出當天登熱榜