僅需一萬塊錢!清華團隊靠強化學(xué)習(xí)讓 7B模型數(shù)學(xué)打敗GPT-4o
無需模仿,超越蒸餾
原標(biāo)題:僅需一萬塊錢!清華團隊靠強化學(xué)習(xí)讓 7B模型數(shù)學(xué)打敗GPT-4o
文章來源:量子位
內(nèi)容字?jǐn)?shù):3519字
PRIME: 提升大模型推理能力的強化學(xué)習(xí)新方法
近日,清華大學(xué)、上海AI Lab等團隊提出一種名為PRIME (Process Reinforcement through IMplicit REwards) 的強化學(xué)習(xí)新方法,成功訓(xùn)練出一個數(shù)學(xué)能力超越GPT-4o和Llama-3.1-70B的7B模型Eurus-2-7B-PRIME。該方法僅需少量資源(8張A100,約一萬元,不到10天),便取得了顯著成果,在AI社區(qū)引發(fā)熱議。
1. 模仿學(xué)習(xí)的局限與強化學(xué)習(xí)的潛力
傳統(tǒng)的基于模仿學(xué)習(xí)的大模型訓(xùn)練方法依賴大量高質(zhì)量數(shù)據(jù),而高質(zhì)量數(shù)據(jù)往往稀缺,限制了模型推理能力的提升。OpenAI的o1和o3模型的成功案例證明了強化學(xué)習(xí)在提升大模型推理能力方面的巨大潛力,其可以使模型具備類似人類的快速迭代試錯和深度思考能力。然而,強化學(xué)習(xí)也面臨著如何獲取精準(zhǔn)且可擴展的密集獎勵,以及如何設(shè)計高效利用獎勵的算法兩大挑戰(zhàn)。
2. PRIME算法的核心思想:隱式過程獎勵
PRIME算法巧妙地利用了“隱式過程獎勵”的思想來克服上述挑戰(zhàn)。它無需訓(xùn)練額外的價值模型,僅依靠答案的最終對錯(輸出獎勵模型,ORM)數(shù)據(jù)進行訓(xùn)練,就能隱式地建模過程獎勵。這種方法具有三大優(yōu)勢:
過程獎勵:為每個token提供價值估計,無需額外訓(xùn)練價值模型。
可擴展性:只需結(jié)果標(biāo)簽即可在線更新PRM,有效緩解分布偏移和可擴展性問題。
簡潔性:可以直接用初始策略模型初始化PRM,簡化訓(xùn)練流程。
PRIME算法是一種在線強化學(xué)習(xí)算法,能夠?qū)⒚總€token的過程獎勵無縫應(yīng)用于強化學(xué)習(xí)流程中。其流程圖清晰地展示了算法的運作機制。
3. 實驗結(jié)果與突破
實驗結(jié)果顯示,PRIME算法相比于僅用結(jié)果監(jiān)督的方法,采樣效率提升了2.5倍,在下游任務(wù)上也有顯著提升。在線更新PRM的效果也顯著優(yōu)于固定不更新的PRM,驗證了算法設(shè)計的合理性。基于Qwen2.5-Math-Instruct訓(xùn)練的EurusPRM模型,在Best-of-N采樣中達到了開源領(lǐng)先水平。在AIME 2024考試中,Eurus-2-7B-PRIME的準(zhǔn)確率達到26.7%,大幅超越GPT-4o、Llama-3.1-70B和Qwen2.5-Math-7B-Instruct,且僅使用了Qwen Math數(shù)據(jù)的1/10。強化學(xué)習(xí)方法PRIME為模型帶來了16.7%的絕對提升。
4. 未來展望
PRIME算法的成功,證明了強化學(xué)習(xí)在提升大模型推理能力方面的巨大潛力。未來,基于PRIME方法和更強的基座模型,有潛力訓(xùn)練出接近OpenAI o1的模型。強化學(xué)習(xí)作為連接已有智能體和現(xiàn)實世界的橋梁,以及將世界反饋內(nèi)化為模型智能的路徑,將在下一代人工智能發(fā)展中發(fā)揮重要作用。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破