過程獎勵模型PRM成版本答案!谷歌DeepMind全自動標(biāo)注逐步驟獎勵PAV,準(zhǔn)確率提升8%

AIGC動態(tài)歡迎閱讀
原標(biāo)題:過程獎勵模型PRM成版本答案!谷歌DeepMind全自動標(biāo)注逐步驟獎勵PAV,準(zhǔn)確率提升8%
關(guān)鍵字:策略,政策,過程,優(yōu)勢,步驟
文章來源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報道編輯:LRS
【新智元導(dǎo)讀】通過過程獎勵模型(PRM)在每一步提供反饋,并使用過程優(yōu)勢驗證器(PAV)來預(yù)測進展,從而優(yōu)化基礎(chǔ)策略,該方法在測試時搜索和在線強化學(xué)習(xí)中顯示出比傳統(tǒng)方法更高的準(zhǔn)確性和計算效率,顯著提升了解決復(fù)雜問題的能力。在提升大型語言模型(LLM)在數(shù)學(xué)推理方面的能力時,一個常用的方法是訓(xùn)練一個獎勵模型(reward model)或驗證器(verifier),也可以利用強化學(xué)習(xí)在測試階段(test-time)對所有解決方案進行重排序。
通常情況下,驗證器的預(yù)測是整個推理過程的結(jié)果,即結(jié)果獎勵模型(ORM,outcome reward models),但這種獎勵信號過于稀疏,模型難以從中學(xué)習(xí),并且搜索過程的效率也不高;理論上,通過細粒度的監(jiān)督數(shù)據(jù)可以緩解這一問題。
在推理方面,先前有研究已經(jīng)訓(xùn)練了過程獎勵模型(PRMs,process reward models),在搜索的每一步或在強化學(xué)習(xí)期間分配中間獎勵,不過PRM數(shù)據(jù)都來源于人工標(biāo)注,不具備可擴展性。
雖然也有研究者訓(xùn)練PRMs來預(yù)測自動生成的標(biāo)注,類似于強化學(xué)習(xí)中的價值函數(shù),但到目前為止,自動化的PRM
原文鏈接:過程獎勵模型PRM成版本答案!谷歌DeepMind全自動標(biāo)注逐步驟獎勵PAV,準(zhǔn)確率提升8%
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介:

粵公網(wǎng)安備 44011502001135號