o1也會「想太多」?騰訊AI Lab與上海交大揭秘o1模型過度思考問題
這篇論文聚焦于o1類推理模型面臨的一個核心挑戰(zhàn)。

原標(biāo)題:o1也會「想太多」?騰訊AI Lab與上海交大揭秘o1模型過度思考問題
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):11393字
騰訊AI Lab與上海交通大學(xué)合作研究:o1類大模型的“過度思考”現(xiàn)象
本文介紹了騰訊AI Lab和上海交通大學(xué)團(tuán)隊合作完成的一篇論文,該論文首次探討了o1類長思維鏈模型的“過度思考”現(xiàn)象。該現(xiàn)象指的是模型在解決簡單問題時,會產(chǎn)生過長的思維鏈,浪費(fèi)計算資源。論文題目為《Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs》,論文地址為:https://arxiv.org/pdf/2412.21187。
1. 背景與動機(jī):o1模型的“過度思考”
自OpenAI發(fā)布o(jì)1模型以來,其強(qiáng)大的邏輯推理能力備受關(guān)注。o1模型通過模擬人類深度思考過程,例如自我反思、糾錯和探索多種解法等,展現(xiàn)了強(qiáng)大的長時間推理能力。然而,這種機(jī)制也帶來了一個潛在問題——過度思考。許多類似的模型,如QwQ-32B-Preview和Deepseek R1-Preview,也存在此問題:即使面對簡單的加法問題“2+3=?”,也會生成數(shù)百甚至上千個token的冗長答案,而傳統(tǒng)模型只需要少量token即可給出答案。
2. 過度思考現(xiàn)象的定義與分析
研究團(tuán)隊定義了模型回復(fù)中的“解答”:模型每次完整地得到一個答案(無論對錯)即為一個解答。在三個數(shù)據(jù)集(ASDIV、GSM8K、MATH500)上,他們統(tǒng)計了QwQ和R1模型的解答數(shù)量分布。結(jié)果顯示,包含2-4個解答的樣本占比超過70%。然而,分析表明,這兩個模型在超過90%的情況下,第一次嘗試就能給出正確答案,后續(xù)的思考幾乎沒有提升正確率,這印證了過度思考的現(xiàn)象。
為了更深入分析,研究團(tuán)隊利用GPT-4對模型回答進(jìn)行分類,包括推理策略分類和多樣性分析。結(jié)果表明,后續(xù)解答引入新推理思路的可能性逐漸降低,更多的是重復(fù)之前的推理,導(dǎo)致冗余和低效。
3. 過度思考指標(biāo)的提出
研究團(tuán)隊提出了兩個衡量“過度思考”的核心指標(biāo):產(chǎn)出效率和過程效率。
產(chǎn)出效率:正確解答的token數(shù)除以完整回復(fù)的總token數(shù)。該指標(biāo)越高,表示模型在得到正確答案后進(jìn)行反思的輪數(shù)越少。
過程效率:回復(fù)中不同推理策略的token總數(shù)除以整個回復(fù)的token總數(shù)。該指標(biāo)越高,表示模型的多輪反思越有效。
在MATH500數(shù)據(jù)集上,QwQ和R1模型的效率指標(biāo)均顯示存在不同程度的過度思考,尤其在簡單問題上,產(chǎn)出效率不足一半,過程效率也較低。
4. 緩解過度思考的方法
研究者們使用QwQ-32B-Preview模型,基于PRM12K數(shù)據(jù)集,嘗試了多種偏好優(yōu)化算法(SFT,DPO,RPO,SimPO),并結(jié)合不同的正樣本選擇策略(最短回復(fù),首個正確回答,首個正確回答+驗算,最多樣回復(fù))。實(shí)驗結(jié)果表明,SimPO結(jié)合“首個正確回答+驗算”策略能夠在保持模型性能的同時,大幅減少輸出token數(shù)目和平均解答輪數(shù),有效提升產(chǎn)出效率和過程效率。尤其在簡單問題上,該方法僅使用少量token便達(dá)到了100%的正確率。
5. 總結(jié)與未來展望
該論文揭示了o1類模型在簡單問題上容易過度思考,浪費(fèi)計算資源的問題,并提出了有效的優(yōu)化方法。未來研究將探索自適應(yīng)調(diào)控策略和更精細(xì)的效率評估指標(biāo),以實(shí)現(xiàn)更高效的推理機(jī)制。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

粵公網(wǎng)安備 44011502001135號