1/10訓(xùn)練數(shù)據(jù)超越GPT-4o！清華等提出隱式過程獎(jiǎng)勵(lì)模型PRIME，在線刷SOTA

原標(biāo)題：1/10訓(xùn)練數(shù)據(jù)超越GPT-4o！清華等提出隱式過程獎(jiǎng)勵(lì)模型 PRIME，在線刷SOTA
文章來源：新智元
內(nèi)容字?jǐn)?shù)：4947字

清華大學(xué)提出PRIME：用少量數(shù)據(jù)提升語言模型推理能力

本文總結(jié)了清華大學(xué)、UIUC等機(jī)構(gòu)研究者提出的PRIME (Process Reinforcement through IMplicit REwards) 方法，該方法通過隱式獎(jiǎng)勵(lì)進(jìn)行過程強(qiáng)化，顯著提升了語言模型的推理能力，且所需訓(xùn)練數(shù)據(jù)遠(yuǎn)少于傳統(tǒng)方法。

核心思想：隱式獎(jiǎng)勵(lì)與過程強(qiáng)化
PRIME的核心在于利用隱式過程獎(jiǎng)勵(lì) (Implicit PRM) 來進(jìn)行強(qiáng)化學(xué)習(xí) (RL)。不同于以往需要標(biāo)注每個(gè)推理步驟的復(fù)雜方法，PRIME僅需在最終結(jié)果層面進(jìn)行標(biāo)注，即可獲得過程獎(jiǎng)勵(lì)。這大大降低了數(shù)據(jù)標(biāo)注成本，并提升了訓(xùn)練效率。
數(shù)據(jù)效率的顯著提升
實(shí)驗(yàn)結(jié)果表明，PRIME在多個(gè)數(shù)學(xué)和編程基準(zhǔn)測試中取得了顯著優(yōu)于監(jiān)督微調(diào) (SFT) 和知識(shí)蒸餾等方法的成果。令人印象深刻的是，PRIME在僅使用Qwen-2.5-Math-7B模型1/10的數(shù)據(jù)量下，其性能就超越了使用全部數(shù)據(jù)的Instruct版本，甚至在部分測試中超越了GPT-4o。
訓(xùn)練流程：三階段步驟
PRIME的訓(xùn)練過程分為三個(gè)階段：1. **熱身階段 (SFT):** 使用競賽級(jí)別的數(shù)學(xué)和編程基準(zhǔn)數(shù)據(jù)集對(duì)基礎(chǔ)模型進(jìn)行監(jiān)督微調(diào)，建立初始的推理能力；2. **隱式PRM構(gòu)建:** 通過收集響應(yīng)水平數(shù)據(jù)并訓(xùn)練一個(gè)ORM (Outcome Reward Model) 來獲得隱式PRM，無需標(biāo)注步驟標(biāo)簽；3. **強(qiáng)化學(xué)習(xí)階段:** 將隱式PRM與RL算法（如REINFORCE、PPO等）結(jié)合，利用過程獎(jiǎng)勵(lì)和結(jié)果獎(jiǎng)勵(lì)共同優(yōu)化策略模型，進(jìn)一步提升推理能力。
關(guān)鍵技術(shù)突破
PRIME解決了在線RL訓(xùn)練中幾個(gè)關(guān)鍵挑戰(zhàn)：1. **密集獎(jiǎng)勵(lì)的獲取:** 利用隱式PRM從結(jié)果數(shù)據(jù)中免費(fèi)獲得token級(jí)別的過程獎(jiǎng)勵(lì)，避免了構(gòu)建復(fù)雜價(jià)值模型的困難；2. **PRM的有效初始化和在線更新:** 直接使用SFT模型初始化PRM，并通過在線更新結(jié)果標(biāo)簽來避免獎(jiǎng)勵(lì)和泛化問題；3. **RL訓(xùn)練的穩(wěn)定性:** 采用在線提示過濾器，過濾掉過難或過簡單的問題，提高了訓(xùn)練穩(wěn)定性。
實(shí)驗(yàn)結(jié)果及結(jié)論
實(shí)驗(yàn)結(jié)果表明，PRIME在多個(gè)基準(zhǔn)測試中顯著優(yōu)于其他方法，且訓(xùn)練速度更快，方差更低。在線更新PRM的重要性也得到了驗(yàn)證。PRIME方法有效地利用了少量數(shù)據(jù)，取得了顯著的性能提升，為低資源環(huán)境下的語言模型推理能力提升提供了新的思路。

總而言之，PRIME 提出了一種高效且有效的方法，通過巧妙地利用隱式獎(jiǎng)勵(lì)和過程強(qiáng)化，在極大地降低數(shù)據(jù)需求的同時(shí)，顯著提升了語言模型的推理能力。該研究為未來語言模型的訓(xùn)練提供了新的方向，也為解決強(qiáng)化學(xué)習(xí)中的數(shù)據(jù)稀疏性問題提供了新的思路。

聯(lián)系作者

文章來源：新智元
作者微信：
作者簡介：智能+中國主平臺(tái)，致力于推動(dòng)中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展，關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響，領(lǐng)航中國新智能時(shí)代。

閱讀原文