DeepSeek R1遇難題142次"I give up"，研究還稱需增加推理時機控制機制

當AI遇上字母游戲…

原標題：DeepSeek R1遇難題142次"I give up"，研究還稱需增加推理時機控制機制
文章來源：量子位
內容字數：5933字

最新大語言模型推理能力測試引發爭議：DeepSeek R1頻頻“放棄”

近日，一篇關于最新大語言模型推理能力測試的研究論文引發熱議。研究人員基于美國廣播節目NPR周日謎題挑戰（The Sunday Puzzle）構建了一個新的基準測試集，包含近600個難度適中、易于理解但不易解決的謎題，用于評估包括OpenAI o1、o3-mini、DeepSeek R1和Google Gemini Flash Thinking等頂尖模型的推理能力。

1. 新基準測試：難度適中，易于理解和驗證

與現有基準測試使用大學級數學競賽題或編程題不同，該研究選擇難度適中的謎題，這些謎題只需要基本的英語知識和常識就能理解，答案也易于驗證。例如，“想一個熟悉的五個字母、兩個音節的單詞。將中間字母改為字母表中該字母前面的字母，你將得到一個熟悉的五個字母、三個音節的單詞。這個單詞是什么？”(答案：alpha → aloha)。這種設計使得評估結果更易于理解和解釋。

2. 測試結果：OpenAI o1表現最佳，DeepSeek R1頻頻“放棄”

測試結果顯示，OpenAI o1表現最佳，準確率為59%；其次是o3-mini (47%) 和DeepSeek R1 (35%)。值得注意的是，DeepSeek R1在推理過程中經常“放棄”，表現出兩種形式：一是給出與推理過程無關的答案；二是明知答案違反題設條件，仍給出答案。在595個測試問題中，DeepSeek R1在142個問題上明確“放棄”。此外，DeepSeek R1還存在“無限思考”的問題，經常無法在達到32768 token上下文輸出限制前完成推理。

3. 模型“故障”模式：放棄、無限思考和異常不確定性

研究揭示了新的模型“故障”模式，例如DeepSeek R1的“放棄”行為和“無限思考”狀態。此外，模型還表現出異常的不確定性，可能會反復修改答案，或者在找到正確答案后仍繼續探索其他可能性。研究人員發現，推理長度與準確率的關系并非線性正相關，在輸出約10000個token后，繼續推理對提升準確率的幫助不大。對于R1來說，在輸出約3000 token時就開始超過Gemini Thinking的表現。

4. 網友熱議：對“推理”定義的爭議

這項研究在Hacker News上引發熱烈討論。一些網友質疑該研究是否真正考察了模型的“推理”能力，認為解決這些問題更依賴于對特定知識的記憶和檢索，而非真正的邏輯推理。他們認為，如果問題是多項選擇的，那么測試才更能體現推理能力。

5. 研究意義與未來方向

盡管存在爭議，這項研究仍然具有重要的意義。它提供了一個新的基準測試集，可以更有效地評估大語言模型的推理能力，并揭示了一些新的模型“故障”模式。未來研究可以進一步探索如何改進模型的推理機制，例如，開發更有效的推理時機控制機制，以避免模型陷入“無限思考”狀態，并提高模型的推理效率和準確性。

總而言之，這項研究為大語言模型的推理能力評估提供了新的視角和方法，也引發了對“推理”定義和模型評估方法的深入思考。

聯系作者

文章來源：量子位
作者微信：
作者簡介：追蹤人工智能新趨勢，關注科技行業新突破

閱讀原文

# AIGC動態 # AI放棄機制 # DeepSeekR # 大型語言模型瓶頸 # 強化學習調試 # 推理時機控制機制

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

DeepSeek R1遇難題142次"I give up"，研究還稱需增加推理時機控制機制

當AI遇上字母游戲…

最新大語言模型推理能力測試引發爭議：DeepSeek R1頻頻“放棄”

1. 新基準測試：難度適中，易于理解和驗證

2. 測試結果：OpenAI o1表現最佳，DeepSeek R1頻頻“放棄”

3. 模型“故障”模式：放棄、無限思考和異常不確定性

4. 網友熱議：對“推理”定義的爭議

5. 研究意義與未來方向

聯系作者

清華團隊新算法玩轉頻域時域，壓縮95%計算量實現語音分離新SOTA！

iPhone 16 的國行用戶，即將迎來今年最大升級

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點