OpenAI o1全方位SOTA登頂lmsys排行榜！數(shù)學(xué)能力碾壓Claude和谷歌模型，o1-mini并列第一

AIGC動態(tài)1年前 (2024)發(fā)布新智元

AIGC動態(tài)歡迎閱讀

原標(biāo)題：OpenAI o1全方位SOTA登頂lmsys排行榜！數(shù)學(xué)能力碾壓Claude和谷歌模型，o1-mini并列第一
關(guān)鍵字：模型,代碼,人類,領(lǐng)域,排行榜
文章來源：新智元
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

新智元報道編輯：喬楊
【新智元導(dǎo)讀】o1模型發(fā)布1周，lmsys的6k+投票就將o1-preview送上了排行榜榜首。同時，為了滿足大家對模型「IOI金牌水平」的好奇心，OpenAI放出了o1測評時提交的所有代碼。萬眾矚目的最新模型OpenAI o1，終于迎來了lmsys競技場的測評結(jié)果。
不出意外，o1-preview在各種領(lǐng)域絕對登頂，超過了最新版的GPT-4o，在數(shù)學(xué)、困難提示和編碼領(lǐng)域表現(xiàn)出色；
而o1-mini雖然名字中自帶「mini」，但也和最新版的GPT-4o并列綜合排名第二，困難提示、編碼、數(shù)學(xué)等領(lǐng)域和o1-preview同樣登頂?shù)谝弧?br />果然，o1模型不愧是通用推理領(lǐng)域的新王。
lmsys社區(qū)官方發(fā)推表示，這項測試結(jié)果收集了6k+社區(qū)投票，并將OpenAI這次取得的進展描述為「令人難以置信的里程碑」。
單純看排行榜的排名可能不夠具有說服力，于是lmsys特意統(tǒng)計了總榜上前25名模型的1v1勝率。
可以看到，o1-preview對所有模型的勝率都超過了50%，對比04-09版GPT-4-Turbo的勝率最高，達(dá)到了88%。
o1-mini如果對戰(zhàn)o1-preview，勝

原文鏈接：OpenAI o1全方位SOTA登頂lmsys排行榜！數(shù)學(xué)能力碾壓Claude和谷歌模型，o1-mini并列第一