PK OpenAI o1,國產(chǎn)模型在高難度數(shù)學(xué)和算法競賽的能力幾何?
誰是 OpenAI o1 推理類模型方向的挑戰(zhàn)者?在當(dāng)今人工智能迅猛發(fā)展的浪潮中,大模型的競爭愈發(fā)激烈,尤其是推理模型領(lǐng)域,成為眾多研究與評測的焦點。OpenAI 發(fā)布的 o1 系列模型曾掀起大模型革新的熱潮,深度學(xué)習(xí)模型在解決復(fù)雜問題上的能力日益提升,特別是在數(shù)學(xué)、物理等科學(xué)領(lǐng)域的應(yīng)用中取得了顯著成就。而國產(chǎn)模型也在不斷崛起,試圖在這一領(lǐng)域占據(jù)重要地位。各類新型評測社區(qū)的出現(xiàn),為模型的綜合能力的評估提供了參考,推動著模型的不斷優(yōu)化與創(chuàng)新。對于這些模型的實際性能及其在特定任務(wù)上的適用性,學(xué)術(shù)界與工業(yè)界一直保持著高度關(guān)注。為了更準確地評價這些模型的能力,特別是它們在處理復(fù)雜推理問題時的表現(xiàn),國內(nèi)以上海交通大學(xué)、同濟大學(xué)等高校為主導(dǎo)的AGI-Eval組織了一系列嚴格而系統(tǒng)的評測活動。本研究將聚焦于其中一部分——數(shù)學(xué)與代碼競賽題目的評測結(jié)果,分析最新發(fā)布的推理類模型之間的差異以及它們各自的優(yōu)勢所在,其中包括OpenAI的o1、上海人工智能實驗室的InternThinker-Alpha、DeepSeek的DeepSeek-R1-Lite、月之暗面 k0-math 、阿里巴巴QwQ-32B-Preview等最新模型。此次參評的推理模型和o1的推理鏈路比較類似,主要通過增加推理時間和推理tokens數(shù)量,模擬人類的思考和反思過程,顯著增強其推理能力。如下圖的推理策略,模型在解決問題時多采用鏈式推理策略,并對復(fù)雜任務(wù)進行自我糾錯,經(jīng)過這樣的引導(dǎo)使模型在解決復(fù)雜任務(wù)時自發(fā)使用“回憶知識-解答”,“執(zhí)行-反思”等策略組合,模型在解題過程中會花費更多時間和tokens進行推理,提高答題的成功率。InternThinker-Alpha發(fā)布的思考路徑圖評測重點考察推理模型在數(shù)學(xué)和代碼上的推理能力。考慮到現(xiàn)在的大模型已經(jīng)具備很強的記憶力能力,當(dāng)評測數(shù)據(jù)被直接開源,評測數(shù)據(jù)就很容易出現(xiàn)“數(shù)據(jù)穿越”的問題,因此AGI-Eval通過專業(yè)的方式收集數(shù)據(jù),并于知名高校合作等方式構(gòu)建了高質(zhì)量的黑盒評測數(shù)據(jù)。1數(shù)學(xué)競賽題目評測與推理過程分析「高難度數(shù)學(xué)」評測用了來自全國高中數(shù)合競賽、美國數(shù)學(xué)邀請賽(AIME)、全國碩士研究生招生考試等多個來源的真實試題作為基準數(shù)據(jù)集。這些題目不僅涵蓋了廣泛的數(shù)學(xué)知識點,而且具有較高的難度系數(shù),能夠有效測試模型的推理能力和解題技巧。從題型分布上看,各模型考研數(shù)學(xué)題正確率高于高中數(shù)學(xué)競賽題10%,提示考研數(shù)學(xué)題目難度相對簡單。評測過程中,各參評模型被要求完成所有給定題目,并記錄下其解答過程中的各項參數(shù),包括但不限于推理時間、使用的token數(shù)量等。此外,為了保證評測結(jié)果的公平性和透明度,所有數(shù)據(jù)均經(jīng)過了嚴格的預(yù)處理和清洗流程,確保沒有任何偏差影響最終結(jié)論。其中,阿里巴巴最新的 QwQ-32B-Preview 在難度相對較低的考研數(shù)學(xué)題方面正確率達到0.833,優(yōu)勢占比明顯。而整體準確率上,DeepSeek-R1-Lite以0.667的正確率位列國內(nèi)模型第一,超越OpenAI 的標桿o1-preview模型,但仍然低于o1-mini。不久前,Sam Altman曾表示o1在美國數(shù)學(xué)奧林匹克 (AIME) 預(yù)選賽題目中能躋身美國前500名學(xué)生之列,而此次評測也采用了AIME1/2的題目。榜單鏈接:https://agi-eval.cn/evaluation/advanced-mathematics除了推出評測榜單以外,AGI-Eval也從模型的推理過程中,發(fā)現(xiàn)了一些有意思的現(xiàn)象。(一)實現(xiàn)類人模式,完成后會自我檢查與糾錯同類的幾個推理模型都有自我糾錯環(huán)節(jié),檢查推理步驟并進行二次驗證,當(dāng)發(fā)現(xiàn)推理思路不對,會換個思路繼續(xù)推理。DeepSeek-R1prompt:設(shè)f(x)是定義域為R、最小正周期為5的函數(shù).若函數(shù)g(x)=f(2^x)在區(qū)間[0,5)上的零點個數(shù)為25,則g(x)在區(qū)間[1,4)上的零點個數(shù)為思維鏈路:wait, 這樣算好像不太對。我應(yīng)該重新考慮。對于每個 \( k \),\( a_i + 5k \in [1, 32) \),且 \( a_i \in [0, 5) \)。所以,對于 \( k=0 \):\( 0+0=0 \) 到 \( 5+0=5 \),要 \( \geq 1 \),所以 \( a_i \in [1, 5) \) \( \Rightarrow \) 解為 \( x \) 滿足 \( 2^x = a_i + 0 \Rightarrow x = \log_2(a_i) \)。\( k=1 \):\( a_i + 5 \in [5, 10) \),要 \( \geq 1 \),即全部滿足,因為 \( 5 \geq 1 \)。所以 \( a_i \in [0, 5) \)。\( k=2 \):\( a_i + 10 \in [10, 15) \),要 \( \geq 1 \),全部滿足。\( k=3 \):\( a_i + 15 \in [15, 20) \),要 \( \geq 1 \),全部滿足。\( k=4 \):\( a_i + 20 \in [20, 25) \),要 \( \geq 1 \),全部滿足。\( k=5 \):\( a_i + 25 \in [25, 30) \),要 \( \geq 1 \),全部滿足。\( k=6 \):\( a_i + 30 \in [30, 35) \),要 \( < 32 \),所以 \( a_i + 30 < 32 \Rightarrow a_i < 2 \)K0-mathprompt:在平面直角坐標系內(nèi),點M∈{(x,y)|x^2/200+y^2/8≤1},點A(2,1),若△OMA的面積不超過3,則滿足條件的整點M的個數(shù)為思維鏈路:不過,我有點擔(dān)心是不是有某些點不滿足橢圓的條件。為了確保,我隨機檢查幾個點:比如,當(dāng) \( y = 2 \) 時,\( x = 10 \):\[\frac{10^2}{200} + \frac{2^2}{8} = \frac{100}{200} + \frac{4}{8} = 0.5 + 0.5 = 1\]符合條件。再看看當(dāng) \( y = -2 \) 時,\( x = -10 \):\[\frac{(-10)^2}{200} + \frac{(-2)^2}{8} = \frac{100}{200} + \frac{4}{8} = 0.5 + 0.5 = 1\]也符合。看來我的計算是正確的。所以,滿足條件的整數(shù)點 \( M \) 的個數(shù)是 65。(二)推理時間,隨難度顯著增加具體實戰(zhàn)時,DeepSeek-R1-Lite完成競賽數(shù)學(xué)平均推理時間僅3min,考研數(shù)學(xué)題的平均推理時間是1min。高中數(shù)學(xué)競賽:考研數(shù)學(xué):(三)推理過程可能存在中英混雜的情況一些推理模型也會有偶現(xiàn)的輸出問題。例如,DeepSeek-R1-Lite在完成中文試題時,推理部分會存在中英夾雜的情況,K0-math會出現(xiàn)中文試題全英回答。DeepSeek-R1prompt:給定整數(shù) n>2 和 l \in\{1,2, \cdots, n\} . 稱 \{1,2, \cdots, n\} 的子集族 A_{1}, \cdots, A_{k} (允許相同) 是 l- 大的, 如果對任意 1 \leq i \leq k 有 \left|A_{i}\right| \geq l . 求最大的實數(shù) c , 使得對任意正整數(shù) k , 任意非負實數(shù) x_{1}, \cdots, x_{k} , 以及 \{1,2, \cdots, n\} 的任意 l -大的子集族 A_{1}, \cdots, A_{k} , 均有\(zhòng)sum_{i=1}^{k} \sum_{j=1}^{k} x_{i} x_{j} \frac{\left|A_{i} \cap A_{j}\right|^{2}}{\left|A_{i}\right| \cdot\left|A_{j}\right|} \geq c\left(\sum_{i=1}^{k} x_{i}\right)^{2}思維鏈路這可能比較難以直接計算。也許可以考慮對稱的情況,比如所有 \( A_i \) 都是相同的集合,或者完全不相交的集合。不過,完全不相交的集合在 \( I \geq 1 \) 時可能不成立,因為 \( n > 1 \)。Wait, for \( I=1 \), \( n > 2 \), but \( I \) can be up to \( n \)。If \( I=1 \), then \( A_i \) can be any non-empty set。But since it’s \( I \)-large, \( |A_i| \geq l \)。But \( I \) can be from 1 to \( n \)。This complicates things.Maybe consider fixing \( I \) and \( n \), and find \( c \) in terms of \( I \) and \( n \)。But the problem asks for \( c \) in terms of \( n \) and \( I \)。K0-mathprompt:以 x=t y 參數(shù)化曲線 x^{2}+y^{3}=x y , 求曲線所圍區(qū)域的面積.思維鏈路:Given the time I’ve spent without making progress, I think I need to revisit the problem statement to ensure I understood it correctly. The problem asks to parameterize the curve with \(x=t\) and \(y=t\), but that led to a trivial solution. Perhaps the intended parameterization is different.If I consider a different parameterization, such as (x從以上情況可以推斷,或許模型在數(shù)據(jù)訓(xùn)練時,投喂的中文數(shù)據(jù)語料偏少,反而英文語料偏多,導(dǎo)致即使中文問題仍會出現(xiàn)大量英文回答。(四)糾錯失效?長推理鏈導(dǎo)致模型死循環(huán)DeepSeek-R1-Lite模型推理包括長鏈路推理和輸出解題思路2個步驟。對于輸出解題,模型推理即使發(fā)現(xiàn)有誤,仍會輸出一個錯誤答案。錯誤答案輸出,題目實際答案為23,DeepSeek-R1-Lite知道錯誤后仍給出5作為結(jié)果。prompt:在坐標平面上, 設(shè) O(0,0), A\left(\frac{1}{2}, 0\right) , 和 B\left(0, \frac{\sqrt{3}}{2}\right) 。設(shè) \mathcal{F} 為單位長度的線段 \overline{P Q} 所組成的集合, 這些線段位于第一象限, 點 P 在 x -軸上, 點 Q 在 y -軸上。在 \overline{A B} 上有一個獨特的點 C , 不同于 A 和 B , 它不屬于 \mathcal{F} 中的任何線段, 除了 \overline{A B} 。那么 O C^{2}=\frac{p}{q} , 其中 p 和 q 是互質(zhì)的正整數(shù)。求 p+q 。思維鏈路坐標平面線段長度求和問題,UC=1/4,可能這就是答案。不過,我覺得可能有誤,因為題目的答案可能不是5。也許我需要再檢查一下。假設(shè) c(14,34)c(41,43),那么 oc2=(14)2+(34)2=116+316=416=14oc2=(41)2+(43)2=161+163=164=41,確實是 1441。也許題目有誤,或者我的理解有誤。不過,根據(jù)我的推導(dǎo),答案應(yīng)該是5。答案:根據(jù)我的推導(dǎo),答案應(yīng)該是5。面對長鏈路推理,模型思維鏈失敗,會承認超出能力范圍,但也會陷入死循環(huán)狀態(tài)。2算法競賽題推理能力評測, o1 系列依然領(lǐng)跑除了數(shù)學(xué)競賽之外,AGI-Eval還針對編程能力進行了專項評測。AGI-Eval 在編程的模型評測部分,采用了最新發(fā)布的「高難度算法競賽題」數(shù)據(jù)集,是由多所高校合作建設(shè)完成,包括NOIP(信息學(xué)競賽省賽)、信息學(xué)競賽省隊選拔賽 、 NOI(信息學(xué)競賽全國賽)等多個渠道。在「高難度算法競賽題」數(shù)據(jù)集榜單上,o1-mini和o1-preview的編程能力依然保持顯著優(yōu)勢,但其他國產(chǎn)模型如DeepSeek-R1-Lite和InternThinker-Alpha也展現(xiàn)出了不俗的實力,尤其是在一些特定類型的題目上超越了 o1系列模型。榜單鏈接:https://agi-eval.cn/evaluation/advanced-algorithm-olympiad在代碼能力得分這個維度上,之前主要參考準確率(通過全部測試用例算正確否則算錯誤)和通過率(看每個測試用例是否通過)這兩個指標。但參考實際得分時,因為競賽類試題難度大,各模型的準確率區(qū)分度不足,最終以通過率作為指標。除此之外,為拉開區(qū)分度,也嘗試通過給出題解、偽代碼的方式來評測。3下一步計劃:人機協(xié)作評測新模式探索及高質(zhì)量評測社區(qū)建設(shè)鑒于傳統(tǒng)評測方式難以充分反映模型的真實水平,AGI-Eval創(chuàng)新性地提出了人機協(xié)作評測模式。在這種模式下,參與者可以與最新的大模型共同完成任務(wù),既有助于提高任務(wù)完成度又便于建立更加直觀的區(qū)分度。基于前期的一些用戶實驗表明,通過這種方式不僅可以獲得更為簡潔、完善的推理過程描述,還可以進一步提升用戶與大模型之間的互動體驗。未來,隨著更多類似平臺的出現(xiàn)和發(fā)展,相信人機協(xié)作將成為評測領(lǐng)域的一個重要發(fā)展方向。人機社區(qū)鏈接:https://agi-eval.cn/llmArena/homeAGI-Eval 平臺基于真實數(shù)據(jù)回流、能力項拆解等方式,自建萬量級私有數(shù)據(jù),并經(jīng)過多次質(zhì)檢保證準確率。黑盒100%私有化數(shù)據(jù),可保證評測數(shù)據(jù)不可“穿越”。從數(shù)據(jù)建設(shè)到模型評測,實現(xiàn)全層級能力項目,一級能力涵蓋指令遵循、交互能力、認知能力(含推理、知識、其他認知能力等);完美實現(xiàn)自動與人工評測相結(jié)合。對于Chat模型,平臺官方榜單結(jié)合主觀、客觀評測結(jié)果,中英文權(quán)重分布均衡。客觀評測基于模型打分,可處理具有一定度問題,準確率95%+;主觀評測基于三人標注,并記錄細分維度標簽結(jié)果,全面診斷模型問題。4總結(jié):推理模型面臨的挑戰(zhàn)與思考(一)數(shù)據(jù)訓(xùn)練與語料問題推理模型現(xiàn)的中英混雜現(xiàn)象,反映出模型訓(xùn)練數(shù)據(jù)語料的不平衡。在未來的模型訓(xùn)練中,如何增加高質(zhì)量的中文語料,優(yōu)化語料比例,成為提升模型中文推理能力的關(guān)鍵問題。這需要開發(fā)者在數(shù)據(jù)收集、整理和預(yù)處理階段,更加注重中文數(shù)據(jù)的多樣性、準確性和豐富性,以減少因語料問題導(dǎo)致的推理偏差。(二)推理糾錯與死循環(huán)DeepSeek – R1 – Lite 模型在推理過程中,即使發(fā)現(xiàn)錯誤仍可能輸出錯誤答案,且在面對長鏈路推理時,容易陷入死循環(huán)狀態(tài)。這表明模型在推理糾錯機制和長鏈路推理的優(yōu)化上還有很大的提升空間。開發(fā)者需要研究更有效的推理糾錯算法,以及對長鏈路推理進行合理的中斷或優(yōu)化策略,以提高模型推理的準確性和效率。(三)模型校準與性能提升在模型校準方面,盡管大規(guī)模模型如 GPT – 4o 在一定程度上表現(xiàn)出更好的校準性能,但整體來看,各模型在信心指數(shù)與答案實際準確率的匹配上仍存在不足,普遍對自身回答的準確性過于自信。未來需要深入研究模型校準技術(shù),使模型能夠更準確地評估自身答案的可靠性,從而提高模型在實際應(yīng)用中的可信度。5未來展望推理模型在當(dāng)前的技術(shù)發(fā)展中取得了顯著進展,AGI – Eval 等各類新型評測社區(qū)也為模型的評估提供了一些新穎的視角,推動了模型在數(shù)學(xué)、代碼推理以及人機協(xié)作等多方面的發(fā)展。然而,模型仍面臨著數(shù)據(jù)訓(xùn)練、推理糾錯、模型校準等諸多挑戰(zhàn)。隨著技術(shù)的不斷演進,未來有望通過優(yōu)化數(shù)據(jù)策略、改進算法設(shè)計、完善評估體系等多方面的努力,進一步提升推理模型的性能,使其在更多領(lǐng)域發(fā)揮更大的價值,為人工智能技術(shù)的發(fā)展帶來新的突破與變革,推動人工智能從感知智能向認知智能的深度跨越。此外,近期發(fā)布的滿血“o1 ”和“o1 pro”,在數(shù)學(xué)、代碼和各類專家測試中,能力也上升了一個新的臺階。最強的推理模型到底有多強?AGI-Eval 社區(qū)會設(shè)計更加具有難度、區(qū)分度的問題,更新榜單、給出答案。更多內(nèi)容,點擊下方關(guān)注:未經(jīng)「AI科技評論」授權(quán),嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標注來源并插入本公眾號名片。