過程獎勵模型PRM成版本答案！谷歌DeepMind全自動標注逐步驟獎勵PAV，準確率提升8%

AIGC動態(tài)1年前 (2024)發(fā)布新智元

AIGC動態(tài)歡迎閱讀

原標題：過程獎勵模型PRM成版本答案！谷歌DeepMind全自動標注逐步驟獎勵PAV，準確率提升8%
關(guān)鍵字：策略,政策,過程,優(yōu)勢,步驟
文章來源：新智元
內(nèi)容字數(shù)：0字

內(nèi)容摘要：

新智元報道編輯：LRS
【新智元導(dǎo)讀】通過過程獎勵模型（PRM）在每一步提供反饋，并使用過程優(yōu)勢驗證器（PAV）來預(yù)測進展，從而優(yōu)化基礎(chǔ)策略，該方法在測試時搜索和在線強化學(xué)習(xí)中顯示出比傳統(tǒng)方法更高的準確性和計算效率，顯著提升了解決復(fù)雜問題的能力。在提升大型語言模型（LLM）在數(shù)學(xué)推理方面的能力時，一個常用的方法是訓(xùn)練一個獎勵模型（reward model）或驗證器（verifier），也可以利用強化學(xué)習(xí)在測試階段（test-time）對所有解決方案進行重排序。
通常情況下，驗證器的預(yù)測是整個推理過程的結(jié)果，即結(jié)果獎勵模型（ORM，outcome reward models），但這種獎勵信號過于稀疏，模型難以從中學(xué)習(xí)，并且搜索過程的效率也不高；理論上，通過細粒度的監(jiān)督數(shù)據(jù)可以緩解這一問題。
在推理方面，先前有研究已經(jīng)訓(xùn)練了過程獎勵模型（PRMs，process reward models），在搜索的每一步或在強化學(xué)習(xí)期間分配中間獎勵，不過PRM數(shù)據(jù)都來源于人工標注，不具備可擴展性。
雖然也有研究者訓(xùn)練PRMs來預(yù)測自動生成的標注，類似于強化學(xué)習(xí)中的價值函數(shù)，但到目前為止，自動化的PRM

原文鏈接：過程獎勵模型PRM成版本答案！谷歌DeepMind全自動標注逐步驟獎勵PAV，準確率提升8%