AIGC動態歡迎閱讀
原標題:陶哲軒聯手60多位數學家出題,世界頂尖模型通過率僅2%!專家級數學基準,讓AI再苦戰數年
關鍵字:數學,模型,基準,測試,問題
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:Hjh
【新智元導讀】Epoch AI推出數學基準FrontierMath,目前前沿模型測試成功率均低于2%!OpenAI研究科學家Noam Brown說道:「我喜歡看到新評估的前沿模型通過率如此之低。這種感覺就像一覺醒來,外面是一片嶄新的雪地,完全沒有人跡。」或許,FrontierMath測試成功率突破的那一天,會是AI發展過程中一個全新的里程碑。數學為評估復雜推理提供了一個獨特而合適的測試平臺。它需要一定的創造力和精確的邏輯鏈條——通常涉及復雜的證明,這些證明必須縝密地籌劃和執行。同時,數學還允許對結果進行客觀驗證。
在鋪天蓋地的宣傳中,LLM看起來已經攻破了數學大關。但果真如此嗎?
不久前,來自蘋果的研究院團隊證明,就算是在數學這些基礎科學方面最先進的o1模型,其卓越的表現也是來源于對特定數據集針對性的持續優化。
所以為了更好的檢驗模型對于數學問題的理解與解決能力,我們需要一個更加全面而行之有效的數學測試基準。
近日,Epoch AI聯合六十余位全世界的數學家,其中包括教授、IMO命題人、菲爾茲獎獲得者,共同推出了全新的數學基準FrontierMath。其包括數
原文鏈接:陶哲軒聯手60多位數學家出題,世界頂尖模型通過率僅2%!專家級數學基準,讓AI再苦戰數年
聯系作者
文章來源:新智元
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...