AI數學神話破滅！FrontierMath讓LLM集體幾乎“交白卷”：正確率不超過2%

AIGC動態歡迎閱讀

原標題：AI數學神話破滅！FrontierMath讓LLM集體幾乎“交白卷”：正確率不超過2%
關鍵字：報告,知識產權,人工智能,華為,解讀
文章來源：人工智能學家
內容字數：0字

內容摘要：

來源：騰訊網|AI寒武紀
大型語言模型（LLM）最近在各種數學benchmark上瘋狂刷分，動輒90%以上的正確率，搞得好像要統治數學界一樣。然而，Epoch AI看不下去了，聯手60多位頂尖數學家，憋了個大招——FrontierMath，一個專治LLM各種不服的全新數學推理測試！結果慘不忍睹，LLM集體“翻車”，正確率竟然不到2%！?
看看Epoch AI是怎么做的FrontierMath是一個用于評估人工智能高級數學推理能力的基準測試。Epoch AI與60多位頂尖數學家合作，創建了數百道原創的、極具挑戰性的數學問題，FrontierMath涵蓋了現代數學的大多數主要分支——從數論中計算密集型問題到代數幾何和范疇論中的抽象問題，目標是捕捉當代數學的概貌，即使是經驗豐富的數學專家，也得絞盡腦汁，花費數小時甚至數天才能解出來
FrontierMath具有三個關鍵的設計原則：1）所有問題都是新的且未發表的，以防止數據污染；2）解決方案是自動可驗證的，從而實現高效的評估；3）問題是“防猜測”的，在沒有正確推理的情況下解決的可能性很低
評估結果評估了六個領先的模型，包括o1 ,Claude

原文鏈接：AI數學神話破滅！FrontierMath讓LLM集體幾乎“交白卷”：正確率不超過2%