<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        LLM實(shí)現(xiàn)自回歸搜索!MIT哈佛等提出「行動思維鏈」COAT,推理能力大提升

        AIGC動態(tài)7個月前發(fā)布 新智元
        408 0 0

        LLM實(shí)現(xiàn)自回歸搜索!MIT哈佛等提出「行動思維鏈」COAT,推理能力大提升

        原標(biāo)題:LLM實(shí)現(xiàn)自回歸搜索!MIT哈佛等提出「行動思維鏈」COAT,推理能力大提升
        文章來源:新智元
        內(nèi)容字?jǐn)?shù):7670字

        Satori:賦予LLM自回歸搜索能力的7B參數(shù)模型

        本文介紹了MIT、新加坡科技設(shè)計大學(xué)、哈佛大學(xué)等機(jī)構(gòu)華人研究者提出的Satori模型,該模型是一個7B參數(shù)的LLM,在數(shù)學(xué)推理和跨領(lǐng)域任務(wù)中表現(xiàn)優(yōu)異。其核心創(chuàng)新在于引入了一種創(chuàng)新的自回歸搜索方法,通過兩階段訓(xùn)練框架——小規(guī)模格式調(diào)優(yōu)和大規(guī)模自我優(yōu)化——來提升LLM的推理能力。

        1. 核心思想:將推理視為順序決策問題

        Satori將LLM的推理過程看作一個順序決策問題,LLM逐步構(gòu)建和完善答案。通過生成推理步驟(動作)并更新上下文(狀態(tài)),重復(fù)此過程直到得出最終答案。根據(jù)答案與真實(shí)答案的匹配程度給予獎勵,利用強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練LLM,以最大化期望獎勵。

        2. 行動-思維鏈(COAT)推理機(jī)制

        為了實(shí)現(xiàn)自回歸搜索,研究者引入了COAT機(jī)制。它包含特殊的元動作tokens,引導(dǎo)LLM推理過程:<|continue|>(繼續(xù)推理)、<|reflect|>(反思)、<|explore|>(探索替代方案)。每個COAT推理步驟都是一個token序列,從一個元動作token開始。

        3. 兩階段訓(xùn)練框架

        (1) 小規(guī)模格式調(diào)優(yōu)階段:利用少量推理軌跡示例,微調(diào)預(yù)訓(xùn)練LLM,使其熟悉并掌握COAT推理格式。一個多代理數(shù)據(jù)合成框架(包含生成器、評論者和獎勵模型)被用來生成高質(zhì)量的示范軌跡。

        (2) 大規(guī)模自我優(yōu)化階段:使用PPO算法進(jìn)行RL優(yōu)化,并引入重啟與探索(RAE)策略和迭代自我提升策略。RAE策略允許模型從之前的中間步驟重新開始推理,并增加探索獎勵鼓勵深入思考。迭代自我提升則在每一輪RL訓(xùn)練后進(jìn)行監(jiān)督微調(diào),將教師策略的知識傳遞給基礎(chǔ)模型。

        4. Satori的優(yōu)勢

        Satori無需外部指導(dǎo)即可自我反思和探索,主要依靠自我改進(jìn)(RL)實(shí)現(xiàn)了最先進(jìn)的推理性能。它展現(xiàn)出強(qiáng)大的遷移能力,可應(yīng)用于數(shù)學(xué)以外的領(lǐng)域,并具備自我糾錯能力。實(shí)驗(yàn)結(jié)果表明,Satori在數(shù)學(xué)推理基準(zhǔn)測試中取得了最佳成績,并在邏輯推理、代碼推理、常識推理等多個領(lǐng)域表現(xiàn)優(yōu)異。

        5. 蒸餾技術(shù)提升泛化能力

        研究者還利用Satori-Qwen-7B生成合成數(shù)據(jù),通過蒸餾技術(shù)將Satori的推理能力轉(zhuǎn)移到較弱的基礎(chǔ)模型(如Llama-3.1-8B和Granite-3.1-8B),提升了這些模型的推理能力,且成本較低。

        總結(jié):Satori模型通過巧妙地結(jié)合自回歸搜索、COAT推理機(jī)制和兩階段訓(xùn)練框架,有效提升了LLM的推理能力,展現(xiàn)了其在解決復(fù)雜推理問題上的巨大潛力。其強(qiáng)大的遷移能力和自我糾錯能力也為未來LLM的發(fā)展提供了新的方向。


        聯(lián)系作者

        文章來源:新智元
        作者微信:
        作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會與文明進(jìn)化的影響,領(lǐng)航中國新智能時代。

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲日韩精品A∨片无码加勒比| 亚洲片一区二区三区| 久久精品国产亚洲AV麻豆不卡| 一级午夜a毛片免费视频| 国产婷婷高清在线观看免费| 亚洲成av人在线观看网站| 日本不卡在线观看免费v| 国产精品亚洲va在线观看| 亚洲AⅤ视频一区二区三区| 国产精品九九久久免费视频| 亚洲午夜久久久久久久久久 | 亚洲av日韩av欧v在线天堂| 特级毛片A级毛片100免费播放 | 亚洲人成网站在线观看播放| 成全高清在线观看免费| 亚洲尹人香蕉网在线视颅| 成年女人18级毛片毛片免费| 美女被免费视频网站a国产| 亚洲人成网站在线在线观看| 国产一级淫片免费播放| fc2成年免费共享视频网站| 亚洲va在线va天堂va888www| 国产成人免费高清激情明星| 亚洲国产成人无码AV在线| 亚洲区小说区图片区| 免费人成视频在线观看网站| 亚洲av成人综合网| 亚洲高清视频一视频二视频三| 在线人成免费视频69国产| 久久久久精品国产亚洲AV无码| 国产午夜免费福利红片| 中文字幕乱码一区二区免费| 亚洲人成777在线播放| 免费人成网站在线高清| 久久久久久AV无码免费网站下载 | 色片在线免费观看| 色屁屁www影院免费观看视频| 亚洲第一视频网站| 免费一级毛片一级毛片aa| 亚洲精品免费观看| 国产午夜亚洲精品不卡免下载|