北大AI奧數(shù)評(píng)測(cè),o1-mini比o1-preview分?jǐn)?shù)還高

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:北大AI奧數(shù)評(píng)測(cè),o1-mini比o1-preview分?jǐn)?shù)還高
關(guān)鍵字:領(lǐng)域,奧林匹克,難度,數(shù)學(xué),題目
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
Omni-MATH團(tuán)隊(duì) 投稿量子位 | 公眾號(hào) QbitAIOpenAI的o1系列一發(fā)布,傳統(tǒng)數(shù)學(xué)評(píng)測(cè)基準(zhǔn)都顯得不夠用了。
MATH-500,滿血版o1模型直接拿下94.8分。
更難的奧數(shù)邀請(qǐng)賽AIME 2024,o1也獲得83.3%的準(zhǔn)確率。
隨著現(xiàn)有的數(shù)學(xué)評(píng)測(cè)集逐漸被攻克,大家不禁開(kāi)始好奇:大模型能否勝任更具挑戰(zhàn)性的數(shù)學(xué)競(jìng)賽,甚至是奧林匹克數(shù)學(xué)競(jìng)賽?
為此,北京大學(xué)與阿里巴巴的研究團(tuán)隊(duì)聯(lián)合打造了一個(gè)專門用于數(shù)學(xué)競(jìng)賽的奧林匹克評(píng)測(cè)基準(zhǔn)——Omni-MATH。
Omni-MATH專門用于評(píng)估大型語(yǔ)言模型在奧林匹克水平的數(shù)學(xué)推理能力。評(píng)測(cè)集共收錄了 4428 道競(jìng)賽級(jí)別的問(wèn)題。這些問(wèn)題經(jīng)過(guò)精心分類,涵蓋了 33 個(gè)(及更多)子領(lǐng)域,并且分為 10 個(gè)不同的難度級(jí)別,使得我們能夠?qū)δP驮诟鞣N數(shù)學(xué)學(xué)科和復(fù)雜程度上的表現(xiàn)進(jìn)行細(xì)致分析。最新排行榜,競(jìng)爭(zhēng)非常激烈:
除去o1滿血版暫時(shí)還沒(méi)有放出API,作為小模型的o1-mini的表現(xiàn)最好,平均分比o1-preview還要高8%左右。
開(kāi)源模型最好的是Qwen2-MATH-72b,甚至超過(guò)了GPT-4o的表現(xiàn)。
總的來(lái)說(shuō),o1-mini這種只關(guān)注少部
原文鏈接:北大AI奧數(shù)評(píng)測(cè),o1-mini比o1-preview分?jǐn)?shù)還高
聯(lián)系作者
文章來(lái)源:量子位
作者微信:
作者簡(jiǎn)介:

粵公網(wǎng)安備 44011502001135號(hào)