當AI遇上字母游戲…
原標題:DeepSeek R1遇難題142次"I give up",研究還稱需增加推理時機控制機制
文章來源:量子位
內容字數:5933字
最新大語言模型推理能力測試引發爭議:DeepSeek R1頻頻“放棄”
近日,一篇關于最新大語言模型推理能力測試的研究論文引發熱議。研究人員基于美國廣播節目NPR周日謎題挑戰(The Sunday Puzzle)構建了一個新的基準測試集,包含近600個難度適中、易于理解但不易解決的謎題,用于評估包括OpenAI o1、o3-mini、DeepSeek R1和Google Gemini Flash Thinking等頂尖模型的推理能力。
1. 新基準測試:難度適中,易于理解和驗證
與現有基準測試使用大學級數學競賽題或編程題不同,該研究選擇難度適中的謎題,這些謎題只需要基本的英語知識和常識就能理解,答案也易于驗證。例如,“想一個熟悉的五個字母、兩個音節的單詞。將中間字母改為字母表中該字母前面的字母,你將得到一個熟悉的五個字母、三個音節的單詞。這個單詞是什么?”(答案:alpha → aloha)。這種設計使得評估結果更易于理解和解釋。
2. 測試結果:OpenAI o1表現最佳,DeepSeek R1頻頻“放棄”
測試結果顯示,OpenAI o1表現最佳,準確率為59%;其次是o3-mini (47%) 和DeepSeek R1 (35%)。值得注意的是,DeepSeek R1在推理過程中經?!胺艞墶保憩F出兩種形式:一是給出與推理過程無關的答案;二是明知答案違反題設條件,仍給出答案。在595個測試問題中,DeepSeek R1在142個問題上明確“放棄”。此外,DeepSeek R1還存在“無限思考”的問題,經常無法在達到32768 token上下文輸出限制前完成推理。
3. 模型“故障”模式:放棄、無限思考和異常不確定性
研究揭示了新的模型“故障”模式,例如DeepSeek R1的“放棄”行為和“無限思考”狀態。 此外,模型還表現出異常的不確定性,可能會反復修改答案,或者在找到正確答案后仍繼續探索其他可能性。研究人員發現,推理長度與準確率的關系并非線性正相關,在輸出約10000個token后,繼續推理對提升準確率的幫助不大。對于R1來說,在輸出約3000 token時就開始超過Gemini Thinking的表現。
4. 網友熱議:對“推理”定義的爭議
這項研究在Hacker News上引發熱烈討論。一些網友質疑該研究是否真正考察了模型的“推理”能力,認為解決這些問題更依賴于對特定知識的記憶和檢索,而非真正的邏輯推理。他們認為,如果問題是多項選擇的,那么測試才更能體現推理能力。
5. 研究意義與未來方向
盡管存在爭議,這項研究仍然具有重要的意義。它提供了一個新的基準測試集,可以更有效地評估大語言模型的推理能力,并揭示了一些新的模型“故障”模式。未來研究可以進一步探索如何改進模型的推理機制,例如,開發更有效的推理時機控制機制,以避免模型陷入“無限思考”狀態,并提高模型的推理效率和準確性。
總而言之,這項研究為大語言模型的推理能力評估提供了新的視角和方法,也引發了對“推理”定義和模型評估方法的深入思考。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破