新研究揭示DeepSeek/o3弱點：頻繁切換思路放棄正確方向，最短答案往往就是對的！

70%錯誤回答的思考過程中至少含一個正確思路

原標題：新研究揭示DeepSeek/o3弱點：頻繁切換思路放棄正確方向，最短答案往往就是對的！
文章來源：量子位
內容字數：4133字

大型語言模型的“欠思考”現象及解決方案

近期研究揭示了大型語言模型（LLM），例如DeepSeek-R1和Qwen QwQ系列，在處理高難度問題時存在的“欠思考”（Underthinking）現象。該現象表現為模型在解題過程中頻繁切換思路，卻缺乏深入探索，最終導致錯誤答案。騰訊AI實驗室、蘇州大學和上海交通大學的研究團隊對此進行了深入研究。

1. “三心二意”的AI：頻繁切換思路導致失敗

研究發現，LLM在遇到難題時，經常在早期找到正確的解題思路，但卻“淺嘗輒止”，迅速轉向其他思路，導致后續生成的數千個token對解題毫無貢獻。這種“無效努力”不僅浪費計算資源，還嚴重降低了答案的準確率。在數學競賽題等復雜任務中，這種現象尤為明顯。

2. 實驗結果：錯誤答案消耗更多資源和思維切換

研究團隊在MATH500、GPQA Diamond和AIME2024三個具有挑戰性的測試集上，對DeepSeek-R1-671B和QwQ-32B-Preview等模型進行了實驗。結果顯示，在錯誤回答中，LLM平均消耗了正確回答225%的token，思維切換頻率增加了418%。超過70%的錯誤答案中至少包含一個正確的思路，超過50%的錯誤答案中，有10%以上的思路是正確的。這表明模型并非完全缺乏正確的思路，而是缺乏深入探索的能力。

3. Underthinking Metric：量化“欠思考”程度

研究團隊開發了一個Underthinking Metric指標，用于量化“欠思考”的程度。該指標通過測量錯誤答案中token的使用效率來評估推理效率。實驗結果表明，所有測試的類o1模型都存在顯著的思維不足問題。不同數據集上，模型準確率與“欠思考”程度的關系也存在差異。

4. 解決方案：思路切換懲罰機制(TIP)

研究人員借鑒人類考試策略，提出了一種“思路切換懲罰機制”（Thought Switching Penalty，TIP）。該機制通過對觸發思路切換的關鍵詞施加懲罰，降低這些詞在解碼過程中的生成概率，迫使模型在當前路徑上探索更久。實驗結果顯示，加入TIP能提高模型在數學測試上的準確率，同時降低UT Score，說明既減少了無效切換，又提高了答案質量。例如，在AIME2024測試上，QwQ-32B-Preview模型的準確率從41.7%提升至45.8%。

5. 簡潔解碼(Laconic decoding)：另一種有效方法

UC Berkeley教授Alex Dimakis的研究也觀察到類似現象，并提出了一種“簡潔解碼”（Laconic decoding）方法。該方法并行運行模型多次，選擇token數量最少的答案。初步實驗結果表明，簡潔解碼在AIME2024測試上能提高6%-7%的準確率。

總而言之，理解和解決LLM的“欠思考”現象對于開發更強大、更可靠的AI模型至關重要。TIP和Laconic decoding等方法為解決這一問題提供了有效的途徑。

聯系作者

文章來源：量子位
作者微信：
作者簡介：追蹤人工智能新趨勢，關注科技行業新突破

閱讀原文

# AIGC動態 # AI模型思維跳躍 # AI算法優化方向 # DeepSeeko3缺陷 # 大型語言模型局限性 # 最優解搜索策略

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

新研究揭示DeepSeek/o3弱點：頻繁切換思路放棄正確方向，最短答案往往就是對的！

70%錯誤回答的思考過程中至少含一個正確思路

大型語言模型的“欠思考”現象及解決方案

1. “三心二意”的AI：頻繁切換思路導致失敗

2. 實驗結果：錯誤答案消耗更多資源和思維切換

3. Underthinking Metric：量化“欠思考”程度

4. 解決方案：思路切換懲罰機制(TIP)

5. 簡潔解碼(Laconic decoding)：另一種有效方法

聯系作者

DeepSeek開啟AI算法變革元年 | 甲子光年智庫

o3-mini之后，OpenAI又緊急上線Deep Research，能連續思考半小時輸出萬字回復！壓力給到了DeepSeek？

相關文章

暫無評論

ChatGPT

玩虛擬模特？