今日arXiv最熱大模型論文:上海AI lab發(fā)布MathBench,GPT-4o的數(shù)學(xué)能力有多強(qiáng)?
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:今日arXiv最熱大模型論文:上海AI lab發(fā)布MathBench,GPT-4o的數(shù)學(xué)能力有多強(qiáng)?
關(guān)鍵字:模型,數(shù)學(xué),問題,能力,階段
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):8326字
內(nèi)容摘要:
夕小瑤科技說 原創(chuàng)作者 | 謝年年大模型數(shù)學(xué)能力哪家強(qiáng)?
最近,上海AI lab構(gòu)建了一個(gè)全面的多語言數(shù)學(xué)基準(zhǔn)——MathBench。與現(xiàn)有的基準(zhǔn)不同的是,MathBench涵蓋從小學(xué)、初中、高中、大學(xué)不同難度,從基礎(chǔ)算術(shù)題到高階微積分、統(tǒng)計(jì)學(xué)、概率論等豐富類別的數(shù)學(xué)題目,跨度大,難度設(shè)置呈階梯狀,可以多維度評(píng)估模型的數(shù)學(xué)能力。
本文測(cè)試了20+個(gè)開源或閉源不同規(guī)模的大模型,包括新秀GPT-4o、常勝將軍GPT-4,還有開源模型里的扛把子通義千問和llama-3。
一起來看看各家大模型的數(shù)學(xué)真實(shí)水平到底如何吧~
論文標(biāo)題:MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark
論文鏈接:https://arxiv.org/pdf/2405.12209
Github連接: https://github.com/open-compass/MathBench
方法1. 預(yù)定義知識(shí)框架在MathBench中,作者首先將數(shù)學(xué)內(nèi)容分為
原文鏈接:今日arXiv最熱大模型論文:上海AI lab發(fā)布MathBench,GPT-4o的數(shù)學(xué)能力有多強(qiáng)?
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:專業(yè)、有趣、深度價(jià)值導(dǎo)向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內(nèi)外機(jī)構(gòu)投資人,互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來自清北、國內(nèi)外頂級(jí)AI實(shí)驗(yàn)室和大廠,兼?zhèn)涿翡J的行業(yè)嗅覺和洞察深度。商務(wù)合作:zym5189