LLM實現自回歸搜索！MIT哈佛等提出「行動思維鏈」COAT，推理能力大提升

原標題：LLM實現自回歸搜索！MIT哈佛等提出「行動思維鏈」COAT，推理能力大提升
文章來源：新智元
內容字數：7670字

本文介紹了MIT、新加坡科技設計大學、哈佛大學等機構華人研究者提出的Satori模型，該模型是一個7B參數的LLM，在數學推理和跨領域任務中表現優異。其核心創新在于引入了一種創新的自回歸搜索方法，通過兩階段訓練框架——小規模格式調優和大規模自我優化——來提升LLM的推理能力。

1. 核心思想：將推理視為順序決策問題

Satori將LLM的推理過程看作一個順序決策問題，LLM逐步構建和完善答案。通過生成推理步驟（動作）并更新上下文（狀態），重復此過程直到得出最終答案。根據答案與真實答案的匹配程度給予獎勵，利用強化學習（RL）訓練LLM，以最大化期望獎勵。

2. 行動-思維鏈（COAT）推理機制

3. 兩階段訓練框架

(1) 小規模格式調優階段：利用少量推理軌跡示例，微調預訓練LLM，使其熟悉并掌握COAT推理格式。一個多代理數據合成框架（包含生成器、評論者和獎勵模型）被用來生成高質量的示范軌跡。

(2) 大規模自我優化階段：使用PPO算法進行RL優化，并引入重啟與探索（RAE）策略和迭代自我提升策略。RAE策略允許模型從之前的中間步驟重新開始推理，并增加探索獎勵鼓勵深入思考。迭代自我提升則在每一輪RL訓練后進行監督微調，將教師策略的知識傳遞給基礎模型。

4. Satori的優勢

Satori無需外部指導即可自我反思和探索，主要依靠自我改進（RL）實現了最先進的推理性能。它展現出強大的遷移能力，可應用于數學以外的領域，并具備自我糾錯能力。實驗結果表明，Satori在數學推理基準測試中取得了最佳成績，并在邏輯推理、代碼推理、常識推理等多個領域表現優異。

5. 蒸餾技術提升泛化能力

研究者還利用Satori-Qwen-7B生成合成數據，通過蒸餾技術將Satori的推理能力轉移到較弱的基礎模型（如Llama-3.1-8B和Granite-3.1-8B），提升了這些模型的推理能力，且成本較低。

總結：Satori模型通過巧妙地結合自回歸搜索、COAT推理機制和兩階段訓練框架，有效提升了LLM的推理能力，展現了其在解決復雜推理問題上的巨大潛力。其強大的遷移能力和自我糾錯能力也為未來LLM的發展提供了新的方向。

聯系作者

文章來源：新智元
作者微信：
作者簡介：智能+中國主平臺，致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展，關注人機融合、人工智能和機器人對人類社會與文明進化的影響，領航中國新智能時代。

文章版權歸作者所有，未經允許請勿轉載。

暫無評論...