国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

o1也會「想太多」？騰訊AI Lab與上海交大揭秘o1模型過度思考問題

這篇論文聚焦于o1類推理模型面臨的一個核心挑戰(zhàn)。

o1也會「想太多」？騰訊AI Lab與上海交大揭秘o1模型過度思考問題

原標(biāo)題：o1也會「想太多」？騰訊AI Lab與上海交大揭秘o1模型過度思考問題
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：11393字

騰訊AI Lab與上海交通大學(xué)合作研究：o1類大模型的“過度思考”現(xiàn)象

本文介紹了騰訊AI Lab和上海交通大學(xué)團(tuán)隊合作完成的一篇論文，該論文首次探討了o1類長思維鏈模型的“過度思考”現(xiàn)象。該現(xiàn)象指的是模型在解決簡單問題時，會產(chǎn)生過長的思維鏈，浪費(fèi)計算資源。論文題目為《Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs》，論文地址為：https://arxiv.org/pdf/2412.21187。

1. 背景與動機(jī)：o1模型的“過度思考”

自OpenAI發(fā)布o(jì)1模型以來，其強(qiáng)大的邏輯推理能力備受關(guān)注。o1模型通過模擬人類深度思考過程，例如自我反思、糾錯和探索多種解法等，展現(xiàn)了強(qiáng)大的長時間推理能力。然而，這種機(jī)制也帶來了一個潛在問題——過度思考。許多類似的模型，如QwQ-32B-Preview和Deepseek R1-Preview，也存在此問題：即使面對簡單的加法問題“2+3=?”,也會生成數(shù)百甚至上千個token的冗長答案，而傳統(tǒng)模型只需要少量token即可給出答案。

2. 過度思考現(xiàn)象的定義與分析

研究團(tuán)隊定義了模型回復(fù)中的“解答”：模型每次完整地得到一個答案（無論對錯）即為一個解答。在三個數(shù)據(jù)集（ASDIV、GSM8K、MATH500）上，他們統(tǒng)計了QwQ和R1模型的解答數(shù)量分布。結(jié)果顯示，包含2-4個解答的樣本占比超過70%。然而，分析表明，這兩個模型在超過90%的情況下，第一次嘗試就能給出正確答案，后續(xù)的思考幾乎沒有提升正確率，這印證了過度思考的現(xiàn)象。

為了更深入分析，研究團(tuán)隊利用GPT-4對模型回答進(jìn)行分類，包括推理策略分類和多樣性分析。結(jié)果表明，后續(xù)解答引入新推理思路的可能性逐漸降低，更多的是重復(fù)之前的推理，導(dǎo)致冗余和低效。

3. 過度思考指標(biāo)的提出

研究團(tuán)隊提出了兩個衡量“過度思考”的核心指標(biāo)：產(chǎn)出效率和過程效率。

產(chǎn)出效率：正確解答的token數(shù)除以完整回復(fù)的總token數(shù)。該指標(biāo)越高，表示模型在得到正確答案后進(jìn)行反思的輪數(shù)越少。

過程效率：回復(fù)中不同推理策略的token總數(shù)除以整個回復(fù)的token總數(shù)。該指標(biāo)越高，表示模型的多輪反思越有效。

在MATH500數(shù)據(jù)集上，QwQ和R1模型的效率指標(biāo)均顯示存在不同程度的過度思考，尤其在簡單問題上，產(chǎn)出效率不足一半，過程效率也較低。

4. 緩解過度思考的方法

研究者們使用QwQ-32B-Preview模型，基于PRM12K數(shù)據(jù)集，嘗試了多種偏好優(yōu)化算法（SFT,DPO,RPO,SimPO），并結(jié)合不同的正樣本選擇策略（最短回復(fù)，首個正確回答，首個正確回答+驗算，最多樣回復(fù)）。實(shí)驗結(jié)果表明，SimPO結(jié)合“首個正確回答+驗算”策略能夠在保持模型性能的同時，大幅減少輸出token數(shù)目和平均解答輪數(shù)，有效提升產(chǎn)出效率和過程效率。尤其在簡單問題上，該方法僅使用少量token便達(dá)到了100%的正確率。