今日arXiv最熱NLP大模型論文：天津大學發布大模型數學能力細粒度評價基準FineMath

AIGC動態2年前 (2024)發布夕小瑤科技說

AIGC動態歡迎閱讀

原標題：今日arXiv最熱NLP大模型論文：天津大學發布大模型數學能力細粒度評價基準FineMath
關鍵字：數學,模型,數據,問題,能力
文章來源：夕小瑤科技說
內容字數：7936字

內容摘要：

夕小瑤科技說原創作者 | Tscom
引言：大語言模型數學能力評估的重要性數學能力的評估對于理解和發展大語言模型（LLMs）至關重要。數學問題不僅涉及對數字的理解和操作，還包括了抽象概念化、邏輯推理等核心能力的考察。因此，一個高質量的數學評估基準對于全面評估LLMs的能力具有重大意義。
傳統的數學問題數據集，如AddSub和MultiArith（下圖），提供了基礎的數學詞匯問題庫，但這些通常只能評估模型在特定數學問題上的準確性。隨著中文LLMs的迅速發展，相應的中文數學評估數據集也應運而生。然而，簡單的準確率評估并不能充分揭示模型掌握了哪些數學概念或技能。因此，迫切需要一個更全面的測試集，能夠細致地評估LLMs在不同難度級別的數學問題上的推理能力。
▲FineMath能夠從三個方面評估LLMs的數學能力：理解抽象數學概念的準確性、推理的準確性以及整體的準確性。為了解決這一問題，我們提出了FineMath，這是一個針對中文LLMs的細粒度數學評估基準數據集（參見上圖）。該數據集包含小學數學的核心概念，分為17類數學詞匯問題，用以深入分析LLMs的數學推理能力。所有數學詞匯問題均經手工標

原文鏈接：今日arXiv最熱NLP大模型論文：天津大學發布大模型數學能力細粒度評價基準FineMath