AIGC動態歡迎閱讀
原標題:陶哲軒和Karpathy推薦的數學測試,讓全體LLM的數學幾乎得0分:解決率2%
關鍵字:數學,基準,模型,問題,小鹿
文章來源:夕小瑤科技說
內容字數:0字
內容摘要:
夕小瑤科技說 原創作者 | 小鹿最近,出現了一個數學基準集,讓大模型們的數學集體翻車,正確率還不到2%。
就是這家非營利研究機構Epoch AI,它集合了世界最頂尖的60多位數學家(包括國際數學奧林匹克(IMO)問題編寫者和菲爾茲獎得主)發布了FrontierMath,專治各種LLM不服的全新的數學基準測試。
FrontierMath包含數百個原創數學問題,涵蓋了數學大多數的分支方向,從計算密集型的數論,到抽象的代數幾何和范疇論問題。
大模型動不動在現在的數學benchmark就是接近100%的正確率,好像真的已經統計數學界了,FrontierMath的出現,就是要考考這些大語言模型到底多厲害。
結果,大語言模型全體暴露,正確率竟然不到2%,這與GSM-8K和MATH等其他流行的數學基準測試形成鮮明對比,在那里這些行業最模型現在實現了超過90%的準確率。。。
基準地址:https://epochai.org/frontiermath
題目是不是太難了?這個非常厲害的基準FrontierMath的設定規則是這樣的:
所有問題都是新的且未發表的,以防止數據污染,而且要經過專業數學家的同行評
原文鏈接:陶哲軒和Karpathy推薦的數學測試,讓全體LLM的數學幾乎得0分:解決率2%
聯系作者
文章來源:夕小瑤科技說
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...