大模型考研數學成績大PK。
原標題:國產推理大模型決戰2025考研數學,看看誰第一個上岸?
文章來源:機器之心
內容字數:5098字
2025考研數學真題測評:深度推理大模型能力拼
機器之心發布的一篇測評文章,對國內外多個深度推理大模型在2025年考研數學(一、二、三)試題上的表現進行了評估,結果顯示深度推理模型在數學推理能力上取得了顯著進步。
1. 測試背景與模型
文章指出,大語言模型在數學推理方面一直是短板,直到深度推理模型的出現才有所改善。此次測評選取了13個模型,包括OpenAI的GPT-o1、智譜的GLM-Zero-Preview、阿里的QwQ等深度推理模型,以及對應的基礎模型,例如GPT-4。測評采用統一的網頁端進行測試,每題作答,三次測試中至少兩次正確才算正確。
2. 測試結果與排名
測試結果顯示,OpenAI的GPT-o1以平均分領先,成為唯一一個超過140分的模型。智譜的GLM-Zero-Preview以138.7分位居國產大模型第一,緊隨其后的是阿里的QwQ。其他深度推理模型也普遍達到120分以上,而基礎模型GPT-4僅獲得70.7分,排名墊底。這表明深度推理模型在數學推理能力上有了顯著提升。
3. 單科分析與錯題分布
文章對各科錯題進行了分析。在數學一中,部分模型在涉及曲面積分和特征向量求解的題目上出錯;數學二中,多個模型在第3、5、7題出錯;數學三中,第14、15、16、19題成為出錯重災區。GPT-o1的錯誤率最低,且其出錯的題目其他模型也普遍出錯,體現了其領先地位。
4. 深度思考模型與基礎模型對比
文章對比了深度推理模型與其對應基礎模型的得分差異。OpenAI的GPT-o1相較于GPT-4o提升最為顯著(57.3分),其次是阿里的Qwen模型和智譜的GLM模型。深度求索和月之暗面的提升相對較小,這與其基礎模型本身分數較高有關。以DeepSeek-v3為基準,OpenAI、智譜、阿里在深度思考模型上的性能提升最為明顯。
5. 結論
雖然OpenAI的GPT-o1仍然處于領先地位,但國產深度推理大模型正在快速追趕,智譜GLM-Zero-Preview和阿里QwQ的成績體現了這一趨勢。此次評測結果展現了深度推理模型在數學推理能力上的顯著進步,也為大模型未來的發展方向提供了參考。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺