陶哲軒聯(lián)手60多位數(shù)學(xué)家出題,世界頂尖模型通過率僅2%!專家級數(shù)學(xué)基準(zhǔn),讓AI再苦戰(zhàn)數(shù)年

AIGC動態(tài)歡迎閱讀
原標(biāo)題:陶哲軒聯(lián)手60多位數(shù)學(xué)家出題,世界頂尖模型通過率僅2%!專家級數(shù)學(xué)基準(zhǔn),讓AI再苦戰(zhàn)數(shù)年
關(guān)鍵字:數(shù)學(xué),模型,基準(zhǔn),測試,問題
文章來源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報道編輯:Hjh
【新智元導(dǎo)讀】Epoch AI推出數(shù)學(xué)基準(zhǔn)FrontierMath,目前前沿模型測試成功率均低于2%!OpenAI研究科學(xué)家Noam Brown說道:「我喜歡看到新評估的前沿模型通過率如此之低。這種感覺就像一覺醒來,外面是一片嶄新的雪地,完全沒有人跡。」或許,F(xiàn)rontierMath測試成功率突破的那一天,會是AI發(fā)展過程中一個全新的里程碑。數(shù)學(xué)為評估復(fù)雜推理提供了一個獨(dú)特而合適的測試平臺。它需要一定的創(chuàng)造力和精確的邏輯鏈條——通常涉及復(fù)雜的證明,這些證明必須縝密地籌劃和執(zhí)行。同時,數(shù)學(xué)還允許對結(jié)果進(jìn)行客觀驗證。
在鋪天蓋地的宣傳中,LLM看起來已經(jīng)攻破了數(shù)學(xué)大關(guān)。但果真如此嗎?
不久前,來自蘋果的研究院團(tuán)隊證明,就算是在數(shù)學(xué)這些基礎(chǔ)科學(xué)方面最先進(jìn)的o1模型,其卓越的表現(xiàn)也是來源于對特定數(shù)據(jù)集針對性的持續(xù)優(yōu)化。
所以為了更好的檢驗?zāi)P蛯τ跀?shù)學(xué)問題的理解與解決能力,我們需要一個更加全面而行之有效的數(shù)學(xué)測試基準(zhǔn)。
近日,Epoch AI聯(lián)合六十余位全世界的數(shù)學(xué)家,其中包括教授、IMO命題人、菲爾茲獎獲得者,共同推出了全新的數(shù)學(xué)基準(zhǔn)FrontierMath。其包括數(shù)
原文鏈接:陶哲軒聯(lián)手60多位數(shù)學(xué)家出題,世界頂尖模型通過率僅2%!專家級數(shù)學(xué)基準(zhǔn),讓AI再苦戰(zhàn)數(shù)年
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介:

粵公網(wǎng)安備 44011502001135號