原標題:LLM實現自回歸搜索!MIT哈佛等提出「行動思維鏈」COAT,推理能力大提升
文章來源:新智元
內容字數:7670字
Satori:賦予LLM自回歸搜索能力的7B參數模型
本文介紹了MIT、新加坡科技設計大學、哈佛大學等機構華人研究者提出的Satori模型,該模型是一個7B參數的LLM,在數學推理和跨領域任務中表現優異。其核心創新在于引入了一種創新的自回歸搜索方法,通過兩階段訓練框架——小規模格式調優和大規模自我優化——來提升LLM的推理能力。
1. 核心思想:將推理視為順序決策問題
Satori將LLM的推理過程看作一個順序決策問題,LLM逐步構建和完善答案。通過生成推理步驟(動作)并更新上下文(狀態),重復此過程直到得出最終答案。根據答案與真實答案的匹配程度給予獎勵,利用強化學習(RL)訓練LLM,以最大化期望獎勵。
2. 行動-思維鏈(COAT)推理機制
為了實現自回歸搜索,研究者引入了COAT機制。它包含特殊的元動作tokens,引導LLM推理過程:<|continue|>(繼續推理)、<|reflect|>(反思)、<|explore|>(探索替代方案)。每個COAT推理步驟都是一個token序列,從一個元動作token開始。
3. 兩階段訓練框架
(1) 小規模格式調優階段:利用少量推理軌跡示例,微調預訓練LLM,使其熟悉并掌握COAT推理格式。一個多代理數據合成框架(包含生成器、評論者和獎勵模型)被用來生成高質量的示范軌跡。
(2) 大規模自我優化階段:使用PPO算法進行RL優化,并引入重啟與探索(RAE)策略和迭代自我提升策略。RAE策略允許模型從之前的中間步驟重新開始推理,并增加探索獎勵鼓勵深入思考。迭代自我提升則在每一輪RL訓練后進行監督微調,將教師策略的知識傳遞給基礎模型。
4. Satori的優勢
Satori無需外部指導即可自我反思和探索,主要依靠自我改進(RL)實現了最先進的推理性能。它展現出強大的遷移能力,可應用于數學以外的領域,并具備自我糾錯能力。實驗結果表明,Satori在數學推理基準測試中取得了最佳成績,并在邏輯推理、代碼推理、常識推理等多個領域表現優異。
5. 蒸餾技術提升泛化能力
研究者還利用Satori-Qwen-7B生成合成數據,通過蒸餾技術將Satori的推理能力轉移到較弱的基礎模型(如Llama-3.1-8B和Granite-3.1-8B),提升了這些模型的推理能力,且成本較低。
總結:Satori模型通過巧妙地結合自回歸搜索、COAT推理機制和兩階段訓練框架,有效提升了LLM的推理能力,展現了其在解決復雜推理問題上的巨大潛力。其強大的遷移能力和自我糾錯能力也為未來LLM的發展提供了新的方向。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。