人大劉勇團隊「慢思考」機理分析：從雪球誤差到正確推理概率

本文探討了外部慢思考在LLM推理中的作用機制，為理解外部慢思考方法提供了理論支撐，并為優(yōu)化LLM的推理能力提供了新思路。

原標(biāo)題：人大劉勇團隊「慢思考」機理分析：從雪球誤差到正確推理概率
文章來源：機器之心
內(nèi)容字?jǐn)?shù)：16843字

大語言模型推理能力提升：從“慢思考”到理論框架

本文探討了大語言模型(LLMs)推理能力提升的新方向——“慢思考”(Slow-Thinking)策略，特別是外部慢思考方法。文章基于論文“Rethinking External Slow-Thinking: From Snowball Errors to Probability of Correct Reasoning” (arxiv.org/abs/2501.15602)，深入剖析了其理論基礎(chǔ)、機制以及對LLM推理能力的影響。

1. LLM推理中的“雪球誤差”

文章首先指出，LLMs在推理過程中存在“雪球誤差”效應(yīng)。類似于雪球越滾越大，LLMs的微小錯誤會在自回歸的推理過程中不斷累積放大，最終導(dǎo)致嚴(yán)重偏差。這種誤差累積源于LLM逐步執(zhí)行一系列原始任務(wù)，前一步的錯誤會影響后續(xù)步驟，最終偏離正確答案。文章利用柏拉圖的“洞穴寓言”形象地解釋了這種現(xiàn)象：LLM的推理輸出只是其內(nèi)部推理過程的“影子”，受限于其從訓(xùn)練數(shù)據(jù)中學(xué)到的模式和誤差。

2. 信息論視角下的推理錯誤概率

為了量化雪球誤差，文章引入了互信息(MI)來衡量隱式推理序列與最終生成回復(fù)之間的共享信息量。信息損失被定義為互信息與隱式推理過程的信息熵之差，雪球誤差則為所有推理步驟上信息損失的累積。文章進一步建立了雪球誤差與推理錯誤概率之間的數(shù)系，證明了推理錯誤概率的下界隨推理步數(shù)線性增長，甚至可能指數(shù)級增長，解釋了LLM在長鏈推理任務(wù)中容易出錯的原因。實驗結(jié)果驗證了這一理論，在GSM8k數(shù)據(jù)集上，三款先進的LLM的互信息均隨推理路徑長度呈負(fù)指數(shù)級下降。

3. 外部慢思考提升推理質(zhì)量的機理

文章分析了外部慢思考方法提升LLM推理質(zhì)量的機理。外部慢思考方法主要通過寬度擴展（如BoN、CoT-SC、ToT、MCTS）和生成與選擇（從多個候選推理路徑中選擇最優(yōu)解）來提高生成正確答案的概率。文章利用信息論方法，推導(dǎo)出在雪球誤差存在時，獲得正確推理結(jié)果的概率公式，并以Beam Search為例，分析了寬度擴展與選擇可靠性之間的平衡關(guān)系，指出價值函數(shù)的可靠性至關(guān)重要。

4. BoN與MCTS方法的對比

文章對比了BoN和MCTS兩種外部慢思考方法。理論分析和實驗結(jié)果表明，在推理正確率相當(dāng)?shù)那闆r下，BoN的總推理成本與MCTS接近，甚至在某些情況下更低。實驗結(jié)果顯示，在GSM8k和PrOntoQA兩個數(shù)據(jù)集上，通過適當(dāng)調(diào)整參數(shù)，BoN能夠達到甚至超越MCTS的推理效果。

5. 結(jié)論

文章總結(jié)指出，外部慢思考方法通過擴展推理空間來減少雪球誤差，但需要在正確性和計算開銷之間權(quán)衡。價值函數(shù)的可靠性和推理總成本是影響其有效性的關(guān)鍵因素。優(yōu)化獎勵函數(shù)和提升策略模型的推理能力是未來改進外部慢思考方法的關(guān)鍵方向。

聯(lián)系作者

文章來源：機器之心
作者微信：
作者簡介：專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

閱讀原文

# AIGC動態(tài)# 人工智能認(rèn)知偏差 # 慢思考模型 # 深度學(xué)習(xí)可解釋性 # 貝葉斯推理 # 雪球效應(yīng)偏差

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

人大劉勇團隊「慢思考」機理分析：從雪球誤差到正確推理概率

本文探討了外部慢思考在LLM推理中的作用機制，為理解外部慢思考方法提供了理論支撐，并為優(yōu)化LLM的推理能力提供了新思路。

大語言模型推理能力提升：從“慢思考”到理論框架

1. LLM推理中的“雪球誤差”

2. 信息論視角下的推理錯誤概率

3. 外部慢思考提升推理質(zhì)量的機理

4. BoN與MCTS方法的對比

5. 結(jié)論

聯(lián)系作者

推理時也能做偏好優(yōu)化，無需額外重訓(xùn)練，來自上海AI Lab港中文等

“首席炒作官”Altman “碰瓷”摩爾定律引社區(qū)不滿，1400萬美元廣告被批“都能訓(xùn)練3個DeepSeek V3了！”

相關(guān)文章

暫無評論

ChatGPT

畢業(yè)論文生成器

AIGC熱點