斯坦福打臉大模型數學水平：題干一改就集體降智，強如o1也失準，能力涌現怕不是檢索題庫

原標題：斯坦福打臉大模型數學水平：題干一改就集體降智，強如o1也失準，能力涌現怕不是檢索題庫
文章來源：人工智能學家
內容字數：10392字

斯坦福大學新研究揭示大模型數學推理能力的局限性

1. **引言:** 斯坦福大學最新研究表明，大型語言模型(LLM)的數學推理能力存在嚴重缺陷。即使是表現最好的模型，僅僅是改變數學題目的變量名稱或取值范圍，準確率就會大幅下降，這表明模型很可能只是依賴記憶而非真正的理解和推理。

2. **Putnam-AXIOM測試集:** 研究團隊為此創建了Putnam-AXIOM基準測試集，該測試集基于1985-2023年William Lowell Putnam數學競賽的題目。為了避免模型“死記硬背”，該測試集包含了原始題目以及通過改變變量名稱和常數生成的變異題目，這些變異題目在互聯網上找不到現成答案。

3. **實驗結果令人失望:** 實驗結果顯示，包括OpenAI的o1-preview、GPT-4o、Claude、DeepSeek和Qwen等多個頂級LLM在原始數據集上的準確率普遍較低，多數低于10%。更令人擔憂的是，在變異數據集上，所有模型的準確率都顯著下降。例如，o1-preview在原始數據集上的準確率為50%，但在變異數據集上降至33.96%。這說明這些模型的“高分”很大程度上依賴于對訓練數據的記憶。

4. **模型錯誤分析:** 研究人員分析了部分模型的錯誤答案，發現這些模型在邏輯推理和數學嚴謹性方面存在明顯缺陷，例如缺乏充分的證明、邏輯跳躍以及不連貫的推理等。

5. **Putnam-AXIOM基準的意義:** Putnam-AXIOM基準的提出有效解決了現有基準測試集飽和的問題，為評估LLM的數學推理能力提供了一個更具挑戰性和更可靠的方法。該基準實現了完全自動化評估，并提供了豐富多樣的變體數據集，為未來研究LLM的推理能力提供了寶貴的資源。

6. **未來研究方向:** 盡管目前變體數據集的生成過程復雜且耗時，但研究團隊表示，未來優化變體生成方法將有助于加速對人工推理的研究，推動LLM在數學推理能力上的進一步提升。

7. **總結:** 斯坦福大學的這項研究揭示了LLM在數學推理能力上的局限性，突出了模型對訓練數據的過度依賴。Putnam-AXIOM基準的提出為更準確地評估LLM的數學推理能力提供了新的工具，也為未來研究LLM的推理機制指明了方向。這也提醒我們，僅僅追求表面上的高分是不夠的，真正理解和掌握解題邏輯才是關鍵。