OpenAI o1全方位SOTA登頂lmsys排行榜!數(shù)學(xué)能力碾壓Claude和谷歌模型,o1-mini并列第一

AIGC動態(tài)歡迎閱讀
原標(biāo)題:OpenAI o1全方位SOTA登頂lmsys排行榜!數(shù)學(xué)能力碾壓Claude和谷歌模型,o1-mini并列第一
關(guān)鍵字:模型,代碼,人類,領(lǐng)域,排行榜
文章來源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報道編輯:喬楊
【新智元導(dǎo)讀】o1模型發(fā)布1周,lmsys的6k+投票就將o1-preview送上了排行榜榜首。同時,為了滿足大家對模型「IOI金牌水平」的好奇心,OpenAI放出了o1測評時提交的所有代碼。萬眾矚目的最新模型OpenAI o1,終于迎來了lmsys競技場的測評結(jié)果。
不出意外,o1-preview在各種領(lǐng)域絕對登頂,超過了最新版的GPT-4o,在數(shù)學(xué)、困難提示和編碼領(lǐng)域表現(xiàn)出色;
而o1-mini雖然名字中自帶「mini」,但也和最新版的GPT-4o并列綜合排名第二,困難提示、編碼、數(shù)學(xué)等領(lǐng)域和o1-preview同樣登頂?shù)谝弧?br />果然,o1模型不愧是通用推理領(lǐng)域的新王。
lmsys社區(qū)官方發(fā)推表示,這項測試結(jié)果收集了6k+社區(qū)投票,并將OpenAI這次取得的進展描述為「令人難以置信的里程碑」。
單純看排行榜的排名可能不夠具有說服力,于是lmsys特意統(tǒng)計了總榜上前25名模型的1v1勝率。
可以看到,o1-preview對所有模型的勝率都超過了50%,對比04-09版GPT-4-Turbo的勝率最高,達(dá)到了88%。
o1-mini如果對戰(zhàn)o1-preview,勝
原文鏈接:OpenAI o1全方位SOTA登頂lmsys排行榜!數(shù)學(xué)能力碾壓Claude和谷歌模型,o1-mini并列第一
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介:

粵公網(wǎng)安備 44011502001135號