LLM實(shí)現(xiàn)自回歸搜索!MIT哈佛等提出「行動思維鏈」COAT,推理能力大提升
原標(biāo)題:LLM實(shí)現(xiàn)自回歸搜索!MIT哈佛等提出「行動思維鏈」COAT,推理能力大提升
文章來源:新智元
內(nèi)容字?jǐn)?shù):7670字
Satori:賦予LLM自回歸搜索能力的7B參數(shù)模型
本文介紹了MIT、新加坡科技設(shè)計大學(xué)、哈佛大學(xué)等機(jī)構(gòu)華人研究者提出的Satori模型,該模型是一個7B參數(shù)的LLM,在數(shù)學(xué)推理和跨領(lǐng)域任務(wù)中表現(xiàn)優(yōu)異。其核心創(chuàng)新在于引入了一種創(chuàng)新的自回歸搜索方法,通過兩階段訓(xùn)練框架——小規(guī)模格式調(diào)優(yōu)和大規(guī)模自我優(yōu)化——來提升LLM的推理能力。
1. 核心思想:將推理視為順序決策問題
Satori將LLM的推理過程看作一個順序決策問題,LLM逐步構(gòu)建和完善答案。通過生成推理步驟(動作)并更新上下文(狀態(tài)),重復(fù)此過程直到得出最終答案。根據(jù)答案與真實(shí)答案的匹配程度給予獎勵,利用強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練LLM,以最大化期望獎勵。
2. 行動-思維鏈(COAT)推理機(jī)制
為了實(shí)現(xiàn)自回歸搜索,研究者引入了COAT機(jī)制。它包含特殊的元動作tokens,引導(dǎo)LLM推理過程:<|continue|>(繼續(xù)推理)、<|reflect|>(反思)、<|explore|>(探索替代方案)。每個COAT推理步驟都是一個token序列,從一個元動作token開始。
3. 兩階段訓(xùn)練框架
(1) 小規(guī)模格式調(diào)優(yōu)階段:利用少量推理軌跡示例,微調(diào)預(yù)訓(xùn)練LLM,使其熟悉并掌握COAT推理格式。一個多代理數(shù)據(jù)合成框架(包含生成器、評論者和獎勵模型)被用來生成高質(zhì)量的示范軌跡。
(2) 大規(guī)模自我優(yōu)化階段:使用PPO算法進(jìn)行RL優(yōu)化,并引入重啟與探索(RAE)策略和迭代自我提升策略。RAE策略允許模型從之前的中間步驟重新開始推理,并增加探索獎勵鼓勵深入思考。迭代自我提升則在每一輪RL訓(xùn)練后進(jìn)行監(jiān)督微調(diào),將教師策略的知識傳遞給基礎(chǔ)模型。
4. Satori的優(yōu)勢
Satori無需外部指導(dǎo)即可自我反思和探索,主要依靠自我改進(jìn)(RL)實(shí)現(xiàn)了最先進(jìn)的推理性能。它展現(xiàn)出強(qiáng)大的遷移能力,可應(yīng)用于數(shù)學(xué)以外的領(lǐng)域,并具備自我糾錯能力。實(shí)驗(yàn)結(jié)果表明,Satori在數(shù)學(xué)推理基準(zhǔn)測試中取得了最佳成績,并在邏輯推理、代碼推理、常識推理等多個領(lǐng)域表現(xiàn)優(yōu)異。
5. 蒸餾技術(shù)提升泛化能力
研究者還利用Satori-Qwen-7B生成合成數(shù)據(jù),通過蒸餾技術(shù)將Satori的推理能力轉(zhuǎn)移到較弱的基礎(chǔ)模型(如Llama-3.1-8B和Granite-3.1-8B),提升了這些模型的推理能力,且成本較低。
總結(jié):Satori模型通過巧妙地結(jié)合自回歸搜索、COAT推理機(jī)制和兩階段訓(xùn)練框架,有效提升了LLM的推理能力,展現(xiàn)了其在解決復(fù)雜推理問題上的巨大潛力。其強(qiáng)大的遷移能力和自我糾錯能力也為未來LLM的發(fā)展提供了新的方向。
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會與文明進(jìn)化的影響,領(lǐng)航中國新智能時代。