<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        1/10訓(xùn)練數(shù)據(jù)超越GPT-4o!清華等提出隱式過程獎(jiǎng)勵(lì)模型PRIME,在線刷SOTA

        AIGC動(dòng)態(tài)9個(gè)月前發(fā)布 新智元
        266 0 0

        1/10訓(xùn)練數(shù)據(jù)超越GPT-4o!清華等提出隱式過程獎(jiǎng)勵(lì)模型PRIME,在線刷SOTA

        原標(biāo)題:1/10訓(xùn)練數(shù)據(jù)超越GPT-4o!清華等提出隱式過程獎(jiǎng)勵(lì)模型PRIME在線刷SOTA
        文章來源:新智元
        內(nèi)容字?jǐn)?shù):4947字

        清華大學(xué)提出PRIME:用少量數(shù)據(jù)提升語言模型推理能力

        本文總結(jié)了清華大學(xué)、UIUC等機(jī)構(gòu)研究者提出的PRIME (Process Reinforcement through IMplicit REwards) 方法,該方法通過隱式獎(jiǎng)勵(lì)進(jìn)行過程強(qiáng)化,顯著提升了語言模型的推理能力,且所需訓(xùn)練數(shù)據(jù)遠(yuǎn)少于傳統(tǒng)方法。

        1. 核心思想:隱式獎(jiǎng)勵(lì)與過程強(qiáng)化

          PRIME的核心在于利用隱式過程獎(jiǎng)勵(lì) (Implicit PRM) 來進(jìn)行強(qiáng)化學(xué)習(xí) (RL)。不同于以往需要標(biāo)注每個(gè)推理步驟的復(fù)雜方法,PRIME僅需在最終結(jié)果層面進(jìn)行標(biāo)注,即可獲得過程獎(jiǎng)勵(lì)。這大大降低了數(shù)據(jù)標(biāo)注成本,并提升了訓(xùn)練效率。

        2. 數(shù)據(jù)效率的顯著提升

          實(shí)驗(yàn)結(jié)果表明,PRIME在多個(gè)數(shù)學(xué)和編程基準(zhǔn)測試中取得了顯著優(yōu)于監(jiān)督微調(diào) (SFT) 和知識(shí)蒸餾等方法的成果。令人印象深刻的是,PRIME在僅使用Qwen-2.5-Math-7B模型1/10的數(shù)據(jù)量下,其性能就超越了使用全部數(shù)據(jù)的Instruct版本,甚至在部分測試中超越了GPT-4o。

        3. 訓(xùn)練流程:三階段步驟

          PRIME的訓(xùn)練過程分為三個(gè)階段:1. **熱身階段 (SFT):** 使用競賽級(jí)別的數(shù)學(xué)和編程基準(zhǔn)數(shù)據(jù)集對(duì)基礎(chǔ)模型進(jìn)行監(jiān)督微調(diào),建立初始的推理能力;2. **隱式PRM構(gòu)建:** 通過收集響應(yīng)水平數(shù)據(jù)并訓(xùn)練一個(gè)ORM (Outcome Reward Model) 來獲得隱式PRM,無需標(biāo)注步驟標(biāo)簽;3. **強(qiáng)化學(xué)習(xí)階段:** 將隱式PRM與RL算法(如REINFORCE、PPO等)結(jié)合,利用過程獎(jiǎng)勵(lì)和結(jié)果獎(jiǎng)勵(lì)共同優(yōu)化策略模型,進(jìn)一步提升推理能力。

        4. 關(guān)鍵技術(shù)突破

          PRIME解決了在線RL訓(xùn)練中幾個(gè)關(guān)鍵挑戰(zhàn):1. **密集獎(jiǎng)勵(lì)的獲取:** 利用隱式PRM從結(jié)果數(shù)據(jù)中免費(fèi)獲得token級(jí)別的過程獎(jiǎng)勵(lì),避免了構(gòu)建復(fù)雜價(jià)值模型的困難;2. **PRM的有效初始化和在線更新:** 直接使用SFT模型初始化PRM,并通過在線更新結(jié)果標(biāo)簽來避免獎(jiǎng)勵(lì)和泛化問題;3. **RL訓(xùn)練的穩(wěn)定性:** 采用在線提示過濾器,過濾掉過難或過簡單的問題,提高了訓(xùn)練穩(wěn)定性。

        5. 實(shí)驗(yàn)結(jié)果及結(jié)論

          實(shí)驗(yàn)結(jié)果表明,PRIME在多個(gè)基準(zhǔn)測試中顯著優(yōu)于其他方法,且訓(xùn)練速度更快,方差更低。在線更新PRM的重要性也得到了驗(yàn)證。PRIME方法有效地利用了少量數(shù)據(jù),取得了顯著的性能提升,為低資源環(huán)境下的語言模型推理能力提升提供了新的思路。

        總而言之,PRIME 提出了一種高效且有效的方法,通過巧妙地利用隱式獎(jiǎng)勵(lì)和過程強(qiáng)化,在極大地降低數(shù)據(jù)需求的同時(shí),顯著提升了語言模型的推理能力。該研究為未來語言模型的訓(xùn)練提供了新的方向,也為解決強(qiáng)化學(xué)習(xí)中的數(shù)據(jù)稀疏性問題提供了新的思路。


        聯(lián)系作者

        文章來源:新智元
        作者微信:
        作者簡介:智能+中國主平臺(tái),致力于推動(dòng)中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國新智能時(shí)代。

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評(píng)論

        暫無評(píng)論...
        主站蜘蛛池模板: 国产成人亚洲合集青青草原精品| 免费亚洲视频在线观看| 好大好硬好爽免费视频| 青青免费在线视频| 久久久久亚洲AV片无码| 毛片免费在线观看网址| 丁香六月婷婷精品免费观看| 久久久久久亚洲Av无码精品专口 | 亚洲电影在线播放| 免费a级毛片大学生免费观看| 少妇太爽了在线观看免费视频| 亚洲乱亚洲乱妇24p| 免费观看一区二区三区| 久久99免费视频| 国内自产拍自a免费毛片| 成人午夜亚洲精品无码网站| 亚洲色偷偷色噜噜狠狠99| 亚洲黄色一级毛片| 一区二区三区免费在线视频 | 久久er国产精品免费观看2| 亚洲熟妇AV一区二区三区宅男| 激情97综合亚洲色婷婷五| 欧美在线看片A免费观看| 中文在线免费不卡视频| 亚洲中文字幕AV每天更新| 亚洲成色在线综合网站| 亚洲A∨精品一区二区三区| 在线观看成人免费视频不卡| a级精品九九九大片免费看| 亚洲av无码专区在线观看下载| 亚洲avav天堂av在线不卡| 亚洲第一区精品观看| 成人免费男女视频网站慢动作| 久久精品视频免费播放| 一级人做人爰a全过程免费视频| 亚洲首页国产精品丝袜| 亚洲av日韩av永久无码电影| 久久夜色精品国产噜噜噜亚洲AV | 国内精品久久久久影院免费| 337P日本欧洲亚洲大胆精品| 亚洲av一本岛在线播放|