AIGC動態歡迎閱讀
原標題:北大AI奧數評測,o1-mini比o1-preview分數還高
關鍵字:領域,奧林匹克,難度,數學,題目
文章來源:量子位
內容字數:0字
內容摘要:
Omni-MATH團隊 投稿量子位 | 公眾號 QbitAIOpenAI的o1系列一發布,傳統數學評測基準都顯得不夠用了。
MATH-500,滿血版o1模型直接拿下94.8分。
更難的奧數邀請賽AIME 2024,o1也獲得83.3%的準確率。
隨著現有的數學評測集逐漸被攻克,大家不禁開始好奇:大模型能否勝任更具挑戰性的數學競賽,甚至是奧林匹克數學競賽?
為此,北京大學與阿里巴巴的研究團隊聯合打造了一個專門用于數學競賽的奧林匹克評測基準——Omni-MATH。
Omni-MATH專門用于評估大型語言模型在奧林匹克水平的數學推理能力。評測集共收錄了 4428 道競賽級別的問題。這些問題經過精心分類,涵蓋了 33 個(及更多)子領域,并且分為 10 個不同的難度級別,使得我們能夠對模型在各種數學學科和復雜程度上的表現進行細致分析。最新排行榜,競爭非常激烈:
除去o1滿血版暫時還沒有放出API,作為小模型的o1-mini的表現最好,平均分比o1-preview還要高8%左右。
開源模型最好的是Qwen2-MATH-72b,甚至超過了GPT-4o的表現。
總的來說,o1-mini這種只關注少部
原文鏈接:北大AI奧數評測,o1-mini比o1-preview分數還高
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...