70%錯誤回答的思考過程中至少含一個正確思路
原標題:新研究揭示DeepSeek/o3弱點:頻繁切換思路放棄正確方向,最短答案往往就是對的!
文章來源:量子位
內容字數:4133字
大型語言模型的“欠思考”現象及解決方案
近期研究揭示了大型語言模型(LLM),例如DeepSeek-R1和Qwen QwQ系列,在處理高難度問題時存在的“欠思考”(Underthinking)現象。該現象表現為模型在解題過程中頻繁切換思路,卻缺乏深入探索,最終導致錯誤答案。騰訊AI實驗室、蘇州大學和上海交通大學的研究團隊對此進行了深入研究。
1. “三心二意”的AI:頻繁切換思路導致失敗
研究發現,LLM在遇到難題時,經常在早期找到正確的解題思路,但卻“淺嘗輒止”,迅速轉向其他思路,導致后續生成的數千個token對解題毫無貢獻。這種“無效努力”不僅浪費計算資源,還嚴重降低了答案的準確率。在數學競賽題等復雜任務中,這種現象尤為明顯。
2. 實驗結果:錯誤答案消耗更多資源和思維切換
研究團隊在MATH500、GPQA Diamond和AIME2024三個具有挑戰性的測試集上,對DeepSeek-R1-671B和QwQ-32B-Preview等模型進行了實驗。結果顯示,在錯誤回答中,LLM平均消耗了正確回答225%的token,思維切換頻率增加了418%。超過70%的錯誤答案中至少包含一個正確的思路,超過50%的錯誤答案中,有10%以上的思路是正確的。 這表明模型并非完全缺乏正確的思路,而是缺乏深入探索的能力。
3. Underthinking Metric:量化“欠思考”程度
研究團隊開發了一個Underthinking Metric指標,用于量化“欠思考”的程度。該指標通過測量錯誤答案中token的使用效率來評估推理效率。實驗結果表明,所有測試的類o1模型都存在顯著的思維不足問題。不同數據集上,模型準確率與“欠思考”程度的關系也存在差異。
4. 解決方案:思路切換懲罰機制(TIP)
研究人員借鑒人類考試策略,提出了一種“思路切換懲罰機制”(Thought Switching Penalty,TIP)。該機制通過對觸發思路切換的關鍵詞施加懲罰,降低這些詞在解碼過程中的生成概率,迫使模型在當前路徑上探索更久。實驗結果顯示,加入TIP能提高模型在數學測試上的準確率,同時降低UT Score,說明既減少了無效切換,又提高了答案質量。例如,在AIME2024測試上,QwQ-32B-Preview模型的準確率從41.7%提升至45.8%。
5. 簡潔解碼(Laconic decoding):另一種有效方法
UC Berkeley教授Alex Dimakis的研究也觀察到類似現象,并提出了一種“簡潔解碼”(Laconic decoding)方法。該方法并行運行模型多次,選擇token數量最少的答案。初步實驗結果表明,簡潔解碼在AIME2024測試上能提高6%-7%的準確率。
總而言之,理解和解決LLM的“欠思考”現象對于開發更強大、更可靠的AI模型至關重要。TIP和Laconic decoding等方法為解決這一問題提供了有效的途徑。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破