<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        LLM實現自回歸搜索!MIT哈佛等提出「行動思維鏈」COAT,推理能力大提升

        AIGC動態3個月前發布 新智元
        401 0 0

        LLM實現自回歸搜索!MIT哈佛等提出「行動思維鏈」COAT,推理能力大提升

        原標題:LLM實現自回歸搜索!MIT哈佛等提出「行動思維鏈」COAT,推理能力大提升
        文章來源:新智元
        內容字數:7670字

        Satori:賦予LLM自回歸搜索能力的7B參數模型

        本文介紹了MIT、新加坡科技設計大學、哈佛大學等機構華人研究者提出的Satori模型,該模型是一個7B參數的LLM,在數學推理和跨領域任務中表現優異。其核心創新在于引入了一種創新的自回歸搜索方法,通過兩階段訓練框架——小規模格式調優和大規模自我優化——來提升LLM的推理能力。

        1. 核心思想:將推理視為順序決策問題

        Satori將LLM的推理過程看作一個順序決策問題,LLM逐步構建和完善答案。通過生成推理步驟(動作)并更新上下文(狀態),重復此過程直到得出最終答案。根據答案與真實答案的匹配程度給予獎勵,利用強化學習(RL)訓練LLM,以最大化期望獎勵。

        2. 行動-思維鏈(COAT)推理機制

        為了實現自回歸搜索,研究者引入了COAT機制。它包含特殊的元動作tokens,引導LLM推理過程:<|continue|>(繼續推理)、<|reflect|>(反思)、<|explore|>(探索替代方案)。每個COAT推理步驟都是一個token序列,從一個元動作token開始。

        3. 兩階段訓練框架

        (1) 小規模格式調優階段:利用少量推理軌跡示例,微調預訓練LLM,使其熟悉并掌握COAT推理格式。一個多代理數據合成框架(包含生成器、評論者和獎勵模型)被用來生成高質量的示范軌跡。

        (2) 大規模自我優化階段:使用PPO算法進行RL優化,并引入重啟與探索(RAE)策略和迭代自我提升策略。RAE策略允許模型從之前的中間步驟重新開始推理,并增加探索獎勵鼓勵深入思考。迭代自我提升則在每一輪RL訓練后進行監督微調,將教師策略的知識傳遞給基礎模型。

        4. Satori的優勢

        Satori無需外部指導即可自我反思和探索,主要依靠自我改進(RL)實現了最先進的推理性能。它展現出強大的遷移能力,可應用于數學以外的領域,并具備自我糾錯能力。實驗結果表明,Satori在數學推理基準測試中取得了最佳成績,并在邏輯推理、代碼推理、常識推理等多個領域表現優異。

        5. 蒸餾技術提升泛化能力

        研究者還利用Satori-Qwen-7B生成合成數據,通過蒸餾技術將Satori的推理能力轉移到較弱的基礎模型(如Llama-3.1-8B和Granite-3.1-8B),提升了這些模型的推理能力,且成本較低。

        總結:Satori模型通過巧妙地結合自回歸搜索、COAT推理機制和兩階段訓練框架,有效提升了LLM的推理能力,展現了其在解決復雜推理問題上的巨大潛力。其強大的遷移能力和自我糾錯能力也為未來LLM的發展提供了新的方向。


        聯系作者

        文章來源:新智元
        作者微信:
        作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 日韩在线视频免费| 国产线视频精品免费观看视频| 一级毛片成人免费看免费不卡| 亚洲熟妇av一区二区三区漫画| 成年女人A毛片免费视频| 久久精品国产精品亚洲人人| 四虎成人精品国产永久免费无码 | 182tv免费观看在线视频 | 久久亚洲精品国产精品婷婷| 国产免费一区二区三区| 亚洲国产人成在线观看| 最近2019中文字幕mv免费看| 在线亚洲人成电影网站色www| 国产人成网在线播放VA免费| 国产成人无码免费看视频软件 | 中文字幕无码免费久久9一区9| 国产亚洲av片在线观看18女人| 免费在线黄色电影| 亚洲va在线va天堂va888www| 91av在线免费视频| 中文字幕乱码亚洲无线三区| 四虎永久在线精品免费观看地址 | 免费在线观看毛片| 国产高潮久久免费观看| 亚洲av色福利天堂| 国产卡二卡三卡四卡免费网址| 亚洲av日韩av永久在线观看| 久久亚洲国产精品123区| 久久一本岛在免费线观看2020| 亚洲一区电影在线观看| 中文字幕成人免费高清在线视频| 亚洲国产精品自在在线观看| 成人免费视频试看120秒| 亚州**色毛片免费观看| 亚洲国产精品婷婷久久| 日韩在线看片免费人成视频播放| fc2成年免费共享视频网站| 亚洲白嫩在线观看| 亚洲第一区在线观看| xx视频在线永久免费观看| 污视频网站在线免费看|