<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        僅需一萬塊錢!清華團隊靠強化學(xué)習(xí)讓 7B模型數(shù)學(xué)打敗GPT-4o

        AIGC動態(tài)8個月前發(fā)布 量子位
        359 0 0

        無需模仿,超越蒸餾

        僅需一萬塊錢!清華團隊靠強化學(xué)習(xí)讓 7B模型數(shù)學(xué)打敗GPT-4o

        原標(biāo)題:僅需一萬塊錢!清華團隊靠強化學(xué)習(xí)讓 7B模型數(shù)學(xué)打敗GPT-4o
        文章來源:量子位
        內(nèi)容字?jǐn)?shù):3519字

        PRIME: 提升大模型推理能力的強化學(xué)習(xí)新方法

        近日,清華大學(xué)、上海AI Lab等團隊提出一種名為PRIME (Process Reinforcement through IMplicit REwards) 的強化學(xué)習(xí)新方法,成功訓(xùn)練出一個數(shù)學(xué)能力超越GPT-4o和Llama-3.1-70B的7B模型Eurus-2-7B-PRIME。該方法僅需少量資源(8張A100,約一萬元,不到10天),便取得了顯著成果,在AI社區(qū)引發(fā)熱議。

        1. 模仿學(xué)習(xí)的局限與強化學(xué)習(xí)的潛力

        傳統(tǒng)的基于模仿學(xué)習(xí)的大模型訓(xùn)練方法依賴大量高質(zhì)量數(shù)據(jù),而高質(zhì)量數(shù)據(jù)往往稀缺,限制了模型推理能力的提升。OpenAI的o1和o3模型的成功案例證明了強化學(xué)習(xí)在提升大模型推理能力方面的巨大潛力,其可以使模型具備類似人類的快速迭代試錯和深度思考能力。然而,強化學(xué)習(xí)也面臨著如何獲取精準(zhǔn)且可擴展的密集獎勵,以及如何設(shè)計高效利用獎勵的算法兩大挑戰(zhàn)。

        2. PRIME算法的核心思想:隱式過程獎勵

        PRIME算法巧妙地利用了“隱式過程獎勵”的思想來克服上述挑戰(zhàn)。它無需訓(xùn)練額外的價值模型,僅依靠答案的最終對錯(輸出獎勵模型,ORM)數(shù)據(jù)進行訓(xùn)練,就能隱式地建模過程獎勵。這種方法具有三大優(yōu)勢:

        1. 過程獎勵:為每個token提供價值估計,無需額外訓(xùn)練價值模型。

        2. 可擴展性:只需結(jié)果標(biāo)簽即可在線更新PRM,有效緩解分布偏移和可擴展性問題。

        3. 簡潔性:可以直接用初始策略模型初始化PRM,簡化訓(xùn)練流程。

        PRIME算法是一種在線強化學(xué)習(xí)算法,能夠?qū)⒚總€token的過程獎勵無縫應(yīng)用于強化學(xué)習(xí)流程中。其流程圖清晰地展示了算法的運作機制。

        3. 實驗結(jié)果與突破

        實驗結(jié)果顯示,PRIME算法相比于僅用結(jié)果監(jiān)督的方法,采樣效率提升了2.5倍,在下游任務(wù)上也有顯著提升。在線更新PRM的效果也顯著優(yōu)于固定不更新的PRM,驗證了算法設(shè)計的合理性。基于Qwen2.5-Math-Instruct訓(xùn)練的EurusPRM模型,在Best-of-N采樣中達到了開源領(lǐng)先水平。在AIME 2024考試中,Eurus-2-7B-PRIME的準(zhǔn)確率達到26.7%,大幅超越GPT-4o、Llama-3.1-70B和Qwen2.5-Math-7B-Instruct,且僅使用了Qwen Math數(shù)據(jù)的1/10。強化學(xué)習(xí)方法PRIME為模型帶來了16.7%的絕對提升。

        4. 未來展望

        PRIME算法的成功,證明了強化學(xué)習(xí)在提升大模型推理能力方面的巨大潛力。未來,基于PRIME方法和更強的基座模型,有潛力訓(xùn)練出接近OpenAI o1的模型。強化學(xué)習(xí)作為連接已有智能體和現(xiàn)實世界的橋梁,以及將世界反饋內(nèi)化為模型智能的路徑,將在下一代人工智能發(fā)展中發(fā)揮重要作用。


        聯(lián)系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 99精品免费视品| 国产日产亚洲系列| 亚洲国产精品激情在线观看| 久久精品国产亚洲AV网站| 亚洲欧美日韩综合久久久久| 亚洲国产成人片在线观看| 免费高清av一区二区三区| 视频一区二区三区免费观看| 日韩在线免费播放| 成人片黄网站色大片免费观看cn| 亚洲欧洲日产国码久在线观看| 国产羞羞的视频在线观看免费| 亚洲爆乳精品无码一区二区三区| 国产h视频在线观看免费| 特级aaaaaaaaa毛片免费视频| 久久久亚洲AV波多野结衣| 蜜桃成人无码区免费视频网站| 欧美亚洲国产SUV| 日韩精品电影一区亚洲| 97国产在线公开免费观看| 亚洲AV成人一区二区三区在线看 | 三年在线观看免费观看完整版中文| 67pao强力打造67194在线午夜亚洲| 全部免费a级毛片| 91精品国产免费久久久久久青草| 成全视成人免费观看在线看| 亚洲性无码AV中文字幕| 亚洲天堂中文字幕| 不卡精品国产_亚洲人成在线| 成人免费一区二区三区| 亚洲av无码专区在线电影| 亚洲成人一级电影| 日本免费的一级v一片| 精品一区二区三区免费毛片爱| 一级一看免费完整版毛片| 亚洲国产精品无码第一区二区三区| 亚洲精品美女在线观看播放| 国产精品无码素人福利免费| 免费精品国产自产拍在线观看图片 | 亚洲中文字幕成人在线| 日本免费中文字幕在线看|