國產(chǎn)推理大模型決戰(zhàn)2025考研數(shù)學(xué)，看看誰第一個(gè)上岸？

AIGC動(dòng)態(tài)10個(gè)月前發(fā)布機(jī)器之心

大模型考研數(shù)學(xué)成績大PK。

原標(biāo)題：國產(chǎn)推理大模型決戰(zhàn)2025考研數(shù)學(xué)，看看誰第一個(gè)上岸？
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：5098字

2025考研數(shù)學(xué)真題測評：深度推理大模型能力拼

機(jī)器之心發(fā)布的一篇測評文章，對國內(nèi)外多個(gè)深度推理大模型在2025年考研數(shù)學(xué)（一、二、三）試題上的表現(xiàn)進(jìn)行了評估，結(jié)果顯示深度推理模型在數(shù)學(xué)推理能力上取得了顯著進(jìn)步。

1. 測試背景與模型

文章指出，大語言模型在數(shù)學(xué)推理方面一直是短板，直到深度推理模型的出現(xiàn)才有所改善。此次測評選取了13個(gè)模型，包括OpenAI的GPT-o1、智譜的GLM-Zero-Preview、阿里的QwQ等深度推理模型，以及對應(yīng)的基礎(chǔ)模型，例如GPT-4。測評采用統(tǒng)一的網(wǎng)頁端進(jìn)行測試，每題作答，三次測試中至少兩次正確才算正確。

2. 測試結(jié)果與排名

測試結(jié)果顯示，OpenAI的GPT-o1以平均分領(lǐng)先，成為唯一一個(gè)超過140分的模型。智譜的GLM-Zero-Preview以138.7分位居國產(chǎn)大模型第一，緊隨其后的是阿里的QwQ。其他深度推理模型也普遍達(dá)到120分以上，而基礎(chǔ)模型GPT-4僅獲得70.7分，排名墊底。這表明深度推理模型在數(shù)學(xué)推理能力上有了顯著提升。

3. 單科分析與錯(cuò)題分布

文章對各科錯(cuò)題進(jìn)行了分析。在數(shù)學(xué)一中，部分模型在涉及曲面積分和特征向量求解的題目上出錯(cuò)；數(shù)學(xué)二中，多個(gè)模型在第3、5、7題出錯(cuò)；數(shù)學(xué)三中，第14、15、16、19題成為出錯(cuò)重災(zāi)區(qū)。GPT-o1的錯(cuò)誤率最低，且其出錯(cuò)的題目其他模型也普遍出錯(cuò)，體現(xiàn)了其領(lǐng)先地位。

4. 深度思考模型與基礎(chǔ)模型對比

文章對比了深度推理模型與其對應(yīng)基礎(chǔ)模型的得分差異。OpenAI的GPT-o1相較于GPT-4o提升最為顯著（57.3分），其次是阿里的Qwen模型和智譜的GLM模型。深度求索和月之暗面的提升相對較小，這與其基礎(chǔ)模型本身分?jǐn)?shù)較高有關(guān)。以DeepSeek-v3為基準(zhǔn)，OpenAI、智譜、阿里在深度思考模型上的性能提升最為明顯。

5. 結(jié)論

雖然OpenAI的GPT-o1仍然處于領(lǐng)先地位，但國產(chǎn)深度推理大模型正在快速追趕，智譜GLM-Zero-Preview和阿里QwQ的成績體現(xiàn)了這一趨勢。此次評測結(jié)果展現(xiàn)了深度推理模型在數(shù)學(xué)推理能力上的顯著進(jìn)步，也為大模型未來的發(fā)展方向提供了參考。

聯(lián)系作者

文章來源：機(jī)器之心
作者微信：
作者簡介：專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

閱讀原文

# AIGC動(dòng)態(tài)# AI教育評測 # 人工智能輔助學(xué)習(xí)# 國產(chǎn)推理大模型 # 大模型考試應(yīng)用 # 考研數(shù)學(xué)AI輔助

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

國產(chǎn)推理大模型決戰(zhàn)2025考研數(shù)學(xué)，看看誰第一個(gè)上岸？

大模型考研數(shù)學(xué)成績大PK。

2025考研數(shù)學(xué)真題測評：深度推理大模型能力拼

1. 測試背景與模型

2. 測試結(jié)果與排名

3. 單科分析與錯(cuò)題分布

4. 深度思考模型與基礎(chǔ)模型對比

5. 結(jié)論

聯(lián)系作者

微軟華人團(tuán)隊(duì)最新研究：從LLM到LAM，讓大模型真正具有「行動(dòng)力」！

神經(jīng)網(wǎng)絡(luò)中的知識(shí)提取-辛頓教授2015的論文

相關(guān)文章

暫無評論

ChatGPT

玩虛擬模特？

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

國產(chǎn)推理大模型決戰(zhàn)2025考研數(shù)學(xué)，看看誰第一個(gè)上岸？

大模型考研數(shù)學(xué)成績大PK。

2025考研數(shù)學(xué)真題測評：深度推理大模型能力拼

1. 測試背景與模型

2. 測試結(jié)果與排名

3. 單科分析與錯(cuò)題分布

4. 深度思考模型與基礎(chǔ)模型對比

5. 結(jié)論

聯(lián)系作者

微軟華人團(tuán)隊(duì)最新研究：從LLM到LAM，讓大模型真正具有「行動(dòng)力」！

神經(jīng)網(wǎng)絡(luò)中的知識(shí)提取-辛頓教授2015的論文

相關(guān)文章

暫無評論

ChatGPT

玩虛擬模特？

國產(chǎn)推理大模型決戰(zhàn)2025考研數(shù)學(xué)，看看誰第一個(gè)上岸？

微軟華人團(tuán)隊(duì)最新研究：從LLM到LAM，讓大模型真正具有「行動(dòng)力」！

玩虛擬模特？