AIGC動態歡迎閱讀
原標題:AI數學神話破滅!FrontierMath讓LLM集體幾乎“交白卷”:正確率不超過2%
關鍵字:報告,知識產權,人工智能,華為,解讀
文章來源:人工智能學家
內容字數:0字
內容摘要:
來源:騰訊網|AI寒武紀
大型語言模型(LLM)最近在各種數學benchmark上瘋狂刷分,動輒90%以上的正確率,搞得好像要統治數學界一樣。然而,Epoch AI看不下去了,聯手60多位頂尖數學家,憋了個大招——FrontierMath,一個專治LLM各種不服的全新數學推理測試!結果慘不忍睹,LLM集體“翻車”,正確率竟然不到2%!??
看看Epoch AI是怎么做的FrontierMath是一個用于評估人工智能高級數學推理能力的基準測試。Epoch AI與60多位頂尖數學家合作,創建了數百道原創的、極具挑戰性的數學問題,FrontierMath涵蓋了現代數學的大多數主要分支——從數論中計算密集型問題到代數幾何和范疇論中的抽象問題,目標是捕捉當代數學的概貌,即使是經驗豐富的數學專家,也得絞盡腦汁,花費數小時甚至數天才能解出來
FrontierMath具有三個關鍵的設計原則:1)所有問題都是新的且未發表的,以防止數據污染;2)解決方案是自動可驗證的,從而實現高效的評估;3)問題是“防猜測”的,在沒有正確推理的情況下解決的可能性很低
評估結果評估了六個領先的模型,包括o1 ,Claude
原文鏈接:AI數學神話破滅!FrontierMath讓LLM集體幾乎“交白卷”:正確率不超過2%
聯系作者
文章來源:人工智能學家
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...