陶哲軒和Karpathy推薦的數(shù)學(xué)測(cè)試,讓全體LLM的數(shù)學(xué)幾乎得0分:解決率2%
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:陶哲軒和Karpathy推薦的數(shù)學(xué)測(cè)試,讓全體LLM的數(shù)學(xué)幾乎得0分:解決率2%
關(guān)鍵字:數(shù)學(xué),基準(zhǔn),模型,問(wèn)題,小鹿
文章來(lái)源:夕小瑤科技說(shuō)
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
夕小瑤科技說(shuō) 原創(chuàng)作者 | 小鹿最近,出現(xiàn)了一個(gè)數(shù)學(xué)基準(zhǔn)集,讓大模型們的數(shù)學(xué)集體翻車,正確率還不到2%。
就是這家非營(yíng)利研究機(jī)構(gòu)Epoch AI,它集合了世界最頂尖的60多位數(shù)學(xué)家(包括國(guó)際數(shù)學(xué)奧林匹克(IMO)問(wèn)題編寫者和菲爾茲獎(jiǎng)得主)發(fā)布了FrontierMath,專治各種LLM不服的全新的數(shù)學(xué)基準(zhǔn)測(cè)試。
FrontierMath包含數(shù)百個(gè)原創(chuàng)數(shù)學(xué)問(wèn)題,涵蓋了數(shù)學(xué)大多數(shù)的分支方向,從計(jì)算密集型的數(shù)論,到抽象的代數(shù)幾何和范疇論問(wèn)題。
大模型動(dòng)不動(dòng)在現(xiàn)在的數(shù)學(xué)benchmark就是接近100%的正確率,好像真的已經(jīng)統(tǒng)計(jì)數(shù)學(xué)界了,F(xiàn)rontierMath的出現(xiàn),就是要考考這些大語(yǔ)言模型到底多厲害。
結(jié)果,大語(yǔ)言模型全體暴露,正確率竟然不到2%,這與GSM-8K和MATH等其他流行的數(shù)學(xué)基準(zhǔn)測(cè)試形成鮮明對(duì)比,在那里這些行業(yè)最模型現(xiàn)在實(shí)現(xiàn)了超過(guò)90%的準(zhǔn)確率。。。
基準(zhǔn)地址:https://epochai.org/frontiermath
題目是不是太難了?這個(gè)非常厲害的基準(zhǔn)FrontierMath的設(shè)定規(guī)則是這樣的:
所有問(wèn)題都是新的且未發(fā)表的,以防止數(shù)據(jù)污染,而且要經(jīng)過(guò)專業(yè)數(shù)學(xué)家的同行評(píng)
原文鏈接:陶哲軒和Karpathy推薦的數(shù)學(xué)測(cè)試,讓全體LLM的數(shù)學(xué)幾乎得0分:解決率2%
聯(lián)系作者
文章來(lái)源:夕小瑤科技說(shuō)
作者微信:
作者簡(jiǎn)介: