原標題:最高138.7分!國產大模型「考研數學」成績單出爐,哪家AI能上岸?
文章來源:人工智能學家
內容字數:9531字
人工智能模型在2025考研數學考試中的表現
本文概述了清華大學人工智能研究院基礎模型研究中心對13個國內外AI模型(包括基礎模型和深度推理模型)進行的2025年考研數學(一、二、三)考試評測結果,并分析了不同模型間的性能差異以及深度推理模型的進步。
1. 評測結果概覽
所有參與評測的AI模型均取得了120分以上的成績,展現了AI在數學推理領域的顯著進步。其中,OpenAI的o1模型表現最為優異,平均得分高達141.3分,僅錯3.5道題。國內頭部模型GLM-zero-preview和QwQ緊隨其后,分別取得了138.7分和137.0分,與o1的差距僅為個位數。DeepSeek-r1-lite、Kimi-k1、Tiangong-o1-preview、DeepSeek-v3等模型也表現不俗,分數均超過120分。而2023年排名第一的GPT-4,此次僅獲得70.7分,排名墊底,這突顯了AI模型在數學推理能力方面的一年內取得的巨大飛躍。
2. 國內外模型差距縮小
盡管OpenAI的o1模型在深度推理方面仍領先于所有國產模型,但國內頭部模型正在迅速縮小這一差距。智譜的GLM-zero-preview和阿里的QwQ在本次測試中表現出色,證明了國產模型在深度推理能力上的顯著提升。
3. 基礎模型與深度推理模型對比
評測團隊對基礎模型和其對應的深度推理模型進行了對比分析,結果顯示OpenAI o1相較于GPT-4o的提升幅度最為顯著,達到57.3分;阿里Qwen和智譜GLM的提升幅度也十分可觀,分別為47.0分和34.3分。深度求索和月之暗面的模型提升幅度相對較小,這主要是因為其基礎模型本身分數已經較高。
以DeepSeek-v3作為基準模型進行對比,智譜和阿里在深度推理模型性能提升方面表現突出,分數分別提升了18.3分和16.7分,與OpenAI的提升幅度(21.0分)接近。
4. 評測方法
為了保證評測的公正性和準確性,評測團隊統一采用各模型廠商的網頁端進行測試,每道題均在的對話窗口中進行,避免上下文信息干擾。為降低模型輸出不穩定性帶來的影響,同一模型三次測試中至少兩次回答正確才算作正確答案。
5. 結論
本次評測結果表明,AI模型在數學推理能力方面取得了顯著進展,國內外模型間的差距正在縮小。雖然OpenAI的o1模型目前仍處于領先地位,但國內頭部模型的快速發展值得關注,未來有望在這一領域取得更大突破。
聯系作者
文章來源:人工智能學家
作者微信:
作者簡介:致力成為權威的人工智能科技媒體和前沿科技研究機構