斯坦福打臉大模型數(shù)學水平:題干一改就集體降智,強如o1也失準,能力涌現(xiàn)怕不是檢索題庫
原標題:斯坦福打臉大模型數(shù)學水平:題干一改就集體降智,強如o1也失準,能力涌現(xiàn)怕不是檢索題庫
文章來源:人工智能學家
內容字數(shù):10392字
斯坦福大學新研究揭示大模型數(shù)學推理能力的局限性
1. **引言:** 斯坦福大學最新研究表明,大型語言模型(LLM)的數(shù)學推理能力存在嚴重缺陷。即使是表現(xiàn)最好的模型,僅僅是改變數(shù)學題目的變量名稱或取值范圍,準確率就會大幅下降,這表明模型很可能只是依賴記憶而非真正的理解和推理。
2. **Putnam-AXIOM測試集:** 研究團隊為此創(chuàng)建了Putnam-AXIOM基準測試集,該測試集基于1985-2023年William Lowell Putnam數(shù)學競賽的題目。為了避免模型“死記硬背”,該測試集包含了原始題目以及通過改變變量名稱和常數(shù)生成的變異題目,這些變異題目在互聯(lián)網(wǎng)上找不到現(xiàn)成答案。
3. **實驗結果令人失望:** 實驗結果顯示,包括OpenAI的o1-preview、GPT-4o、Claude、DeepSeek和Qwen等多個頂級LLM在原始數(shù)據(jù)集上的準確率普遍較低,多數(shù)低于10%。更令人擔憂的是,在變異數(shù)據(jù)集上,所有模型的準確率都顯著下降。例如,o1-preview在原始數(shù)據(jù)集上的準確率為50%,但在變異數(shù)據(jù)集上降至33.96%。這說明這些模型的“高分”很大程度上依賴于對訓練數(shù)據(jù)的記憶。
4. **模型錯誤分析:** 研究人員分析了部分模型的錯誤答案,發(fā)現(xiàn)這些模型在邏輯推理和數(shù)學嚴謹性方面存在明顯缺陷,例如缺乏充分的證明、邏輯跳躍以及不連貫的推理等。
5. **Putnam-AXIOM基準的意義:** Putnam-AXIOM基準的提出有效解決了現(xiàn)有基準測試集飽和的問題,為評估LLM的數(shù)學推理能力提供了一個更具挑戰(zhàn)性和更可靠的方法。該基準實現(xiàn)了完全自動化評估,并提供了豐富多樣的變體數(shù)據(jù)集,為未來研究LLM的推理能力提供了寶貴的資源。
6. **未來研究方向:** 盡管目前變體數(shù)據(jù)集的生成過程復雜且耗時,但研究團隊表示,未來優(yōu)化變體生成方法將有助于加速對人工推理的研究,推動LLM在數(shù)學推理能力上的進一步提升。
7. **總結:** 斯坦福大學的這項研究揭示了LLM在數(shù)學推理能力上的局限性,突出了模型對訓練數(shù)據(jù)的過度依賴。Putnam-AXIOM基準的提出為更準確地評估LLM的數(shù)學推理能力提供了新的工具,也為未來研究LLM的推理機制指明了方向。 這也提醒我們,僅僅追求表面上的高分是不夠的,真正理解和掌握解題邏輯才是關鍵。
聯(lián)系作者
文章來源:人工智能學家
作者微信:
作者簡介:致力成為權威的人工智能科技媒體和前沿科技研究機構