o1/Claude集體翻車!陶哲軒等60+頂尖數(shù)學家合力提出新數(shù)學基準,大模型正確率通通不足2%
AIGC動態(tài)歡迎閱讀
原標題:o1/Claude集體翻車!陶哲軒等60+頂尖數(shù)學家合力提出新數(shù)學基準,大模型正確率通通不足2%
關(guān)鍵字:模型,基準,數(shù)學,問題,答案
文章來源:量子位
內(nèi)容字數(shù):0字
內(nèi)容摘要:
一水 發(fā)自 凹非寺量子位 | 公眾號 QbitAI讓大模型集體吃癟,數(shù)學題正確率通通不到2%!
獲大神卡帕西力薦,大模型新數(shù)學基準來勢洶洶——
一出手,曾在國際數(shù)學奧賽中拿下83%解題率的o1模型就敗下陣來,并且Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Pro等全都未攻破2%這一防線。
所以,新挑戰(zhàn)者到底啥來頭??
一打聽,這個新數(shù)學基準名為FrontierMath,由Epoch AI這家非營利研究機構(gòu)號召陶哲軒在內(nèi)的60多位頂尖數(shù)學家提出。
這群人這次鐵了心要給AI上難度,直接原創(chuàng)了數(shù)百道極具挑戰(zhàn)性的數(shù)學問題——
從數(shù)論中計算密集型問題到代數(shù)幾何和范疇論中的抽象問題,涵蓋了現(xiàn)代數(shù)學的大多數(shù)主要分支。
這些題有多難呢?按數(shù)學大佬陶哲軒對這項研究的評價說:
大模型們,至少需要再戰(zhàn)個幾年吧。
同時,卡帕西也表示非常喜歡這一新基準,甚至樂于見到大模型們“吃癟”:
之所以引入這個基準,是因為大模型越來越多地碾壓現(xiàn)有的數(shù)學基準
FrontierMath:評估AI高級數(shù)學推理能力的新基準今年以來,大語言模型(LLM)開始在各種數(shù)學benchmark上瘋狂刷分,而且正確
原文鏈接:o1/Claude集體翻車!陶哲軒等60+頂尖數(shù)學家合力提出新數(shù)學基準,大模型正確率通通不足2%
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介: