1/10訓(xùn)練數(shù)據(jù)超越GPT-4o!清華等提出隱式過程獎(jiǎng)勵(lì)模型PRIME,在線刷SOTA
原標(biāo)題:1/10訓(xùn)練數(shù)據(jù)超越GPT-4o!清華等提出隱式過程獎(jiǎng)勵(lì)模型PRIME,在線刷SOTA
文章來源:新智元
內(nèi)容字?jǐn)?shù):4947字
清華大學(xué)提出PRIME:用少量數(shù)據(jù)提升語言模型推理能力
本文總結(jié)了清華大學(xué)、UIUC等機(jī)構(gòu)研究者提出的PRIME (Process Reinforcement through IMplicit REwards) 方法,該方法通過隱式獎(jiǎng)勵(lì)進(jìn)行過程強(qiáng)化,顯著提升了語言模型的推理能力,且所需訓(xùn)練數(shù)據(jù)遠(yuǎn)少于傳統(tǒng)方法。
核心思想:隱式獎(jiǎng)勵(lì)與過程強(qiáng)化
PRIME的核心在于利用隱式過程獎(jiǎng)勵(lì) (Implicit PRM) 來進(jìn)行強(qiáng)化學(xué)習(xí) (RL)。不同于以往需要標(biāo)注每個(gè)推理步驟的復(fù)雜方法,PRIME僅需在最終結(jié)果層面進(jìn)行標(biāo)注,即可獲得過程獎(jiǎng)勵(lì)。這大大降低了數(shù)據(jù)標(biāo)注成本,并提升了訓(xùn)練效率。
數(shù)據(jù)效率的顯著提升
實(shí)驗(yàn)結(jié)果表明,PRIME在多個(gè)數(shù)學(xué)和編程基準(zhǔn)測試中取得了顯著優(yōu)于監(jiān)督微調(diào) (SFT) 和知識(shí)蒸餾等方法的成果。令人印象深刻的是,PRIME在僅使用Qwen-2.5-Math-7B模型1/10的數(shù)據(jù)量下,其性能就超越了使用全部數(shù)據(jù)的Instruct版本,甚至在部分測試中超越了GPT-4o。
訓(xùn)練流程:三階段步驟
PRIME的訓(xùn)練過程分為三個(gè)階段:1. **熱身階段 (SFT):** 使用競賽級(jí)別的數(shù)學(xué)和編程基準(zhǔn)數(shù)據(jù)集對(duì)基礎(chǔ)模型進(jìn)行監(jiān)督微調(diào),建立初始的推理能力;2. **隱式PRM構(gòu)建:** 通過收集響應(yīng)水平數(shù)據(jù)并訓(xùn)練一個(gè)ORM (Outcome Reward Model) 來獲得隱式PRM,無需標(biāo)注步驟標(biāo)簽;3. **強(qiáng)化學(xué)習(xí)階段:** 將隱式PRM與RL算法(如REINFORCE、PPO等)結(jié)合,利用過程獎(jiǎng)勵(lì)和結(jié)果獎(jiǎng)勵(lì)共同優(yōu)化策略模型,進(jìn)一步提升推理能力。
關(guān)鍵技術(shù)突破
PRIME解決了在線RL訓(xùn)練中幾個(gè)關(guān)鍵挑戰(zhàn):1. **密集獎(jiǎng)勵(lì)的獲取:** 利用隱式PRM從結(jié)果數(shù)據(jù)中免費(fèi)獲得token級(jí)別的過程獎(jiǎng)勵(lì),避免了構(gòu)建復(fù)雜價(jià)值模型的困難;2. **PRM的有效初始化和在線更新:** 直接使用SFT模型初始化PRM,并通過在線更新結(jié)果標(biāo)簽來避免獎(jiǎng)勵(lì)和泛化問題;3. **RL訓(xùn)練的穩(wěn)定性:** 采用在線提示過濾器,過濾掉過難或過簡單的問題,提高了訓(xùn)練穩(wěn)定性。
實(shí)驗(yàn)結(jié)果及結(jié)論
實(shí)驗(yàn)結(jié)果表明,PRIME在多個(gè)基準(zhǔn)測試中顯著優(yōu)于其他方法,且訓(xùn)練速度更快,方差更低。在線更新PRM的重要性也得到了驗(yàn)證。PRIME方法有效地利用了少量數(shù)據(jù),取得了顯著的性能提升,為低資源環(huán)境下的語言模型推理能力提升提供了新的思路。
總而言之,PRIME 提出了一種高效且有效的方法,通過巧妙地利用隱式獎(jiǎng)勵(lì)和過程強(qiáng)化,在極大地降低數(shù)據(jù)需求的同時(shí),顯著提升了語言模型的推理能力。該研究為未來語言模型的訓(xùn)練提供了新的方向,也為解決強(qiáng)化學(xué)習(xí)中的數(shù)據(jù)稀疏性問題提供了新的思路。
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺(tái),致力于推動(dòng)中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國新智能時(shí)代。
相關(guān)文章
