AIGC動態歡迎閱讀
原標題:o1/Claude集體翻車!陶哲軒等60+頂尖數學家合力提出新數學基準,大模型正確率通通不足2%
關鍵字:模型,基準,數學,問題,答案
文章來源:量子位
內容字數:0字
內容摘要:
一水 發自 凹非寺量子位 | 公眾號 QbitAI讓大模型集體吃癟,數學題正確率通通不到2%!
獲大神卡帕西力薦,大模型新數學基準來勢洶洶——
一出手,曾在國際數學奧賽中拿下83%解題率的o1模型就敗下陣來,并且Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Pro等全都未攻破2%這一防線。
所以,新挑戰者到底啥來頭??
一打聽,這個新數學基準名為FrontierMath,由Epoch AI這家非營利研究機構號召陶哲軒在內的60多位頂尖數學家提出。
這群人這次鐵了心要給AI上難度,直接原創了數百道極具挑戰性的數學問題——
從數論中計算密集型問題到代數幾何和范疇論中的抽象問題,涵蓋了現代數學的大多數主要分支。
這些題有多難呢?按數學大佬陶哲軒對這項研究的評價說:
大模型們,至少需要再戰個幾年吧。
同時,卡帕西也表示非常喜歡這一新基準,甚至樂于見到大模型們“吃癟”:
之所以引入這個基準,是因為大模型越來越多地碾壓現有的數學基準
FrontierMath:評估AI高級數學推理能力的新基準今年以來,大語言模型(LLM)開始在各種數學benchmark上瘋狂刷分,而且正確
原文鏈接:o1/Claude集體翻車!陶哲軒等60+頂尖數學家合力提出新數學基準,大模型正確率通通不足2%
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...