無需模仿,超越蒸餾
原標題:僅需一萬塊錢!清華團隊靠強化學習讓 7B模型數學打敗GPT-4o
文章來源:量子位
內容字數:3519字
PRIME: 提升大模型推理能力的強化學習新方法
近日,清華大學、上海AI Lab等團隊提出一種名為PRIME (Process Reinforcement through IMplicit REwards) 的強化學習新方法,成功訓練出一個數學能力超越GPT-4o和Llama-3.1-70B的7B模型Eurus-2-7B-PRIME。該方法僅需少量資源(8張A100,約一萬元,不到10天),便取得了顯著成果,在AI社區引發熱議。
1. 模仿學習的局限與強化學習的潛力
傳統的基于模仿學習的大模型訓練方法依賴大量高質量數據,而高質量數據往往稀缺,限制了模型推理能力的提升。OpenAI的o1和o3模型的成功案例證明了強化學習在提升大模型推理能力方面的巨大潛力,其可以使模型具備類似人類的快速迭代試錯和深度思考能力。然而,強化學習也面臨著如何獲取精準且可擴展的密集獎勵,以及如何設計高效利用獎勵的算法兩大挑戰。
2. PRIME算法的核心思想:隱式過程獎勵
PRIME算法巧妙地利用了“隱式過程獎勵”的思想來克服上述挑戰。它無需訓練額外的價值模型,僅依靠答案的最終對錯(輸出獎勵模型,ORM)數據進行訓練,就能隱式地建模過程獎勵。這種方法具有三大優勢:
過程獎勵:為每個token提供價值估計,無需額外訓練價值模型。
可擴展性:只需結果標簽即可在線更新PRM,有效緩解分布偏移和可擴展性問題。
簡潔性:可以直接用初始策略模型初始化PRM,簡化訓練流程。
PRIME算法是一種在線強化學習算法,能夠將每個token的過程獎勵無縫應用于強化學習流程中。其流程圖清晰地展示了算法的運作機制。
3. 實驗結果與突破
實驗結果顯示,PRIME算法相比于僅用結果監督的方法,采樣效率提升了2.5倍,在下游任務上也有顯著提升。在線更新PRM的效果也顯著優于固定不更新的PRM,驗證了算法設計的合理性。基于Qwen2.5-Math-Instruct訓練的EurusPRM模型,在Best-of-N采樣中達到了開源領先水平。在AIME 2024考試中,Eurus-2-7B-PRIME的準確率達到26.7%,大幅超越GPT-4o、Llama-3.1-70B和Qwen2.5-Math-7B-Instruct,且僅使用了Qwen Math數據的1/10。強化學習方法PRIME為模型帶來了16.7%的絕對提升。
4. 未來展望
PRIME算法的成功,證明了強化學習在提升大模型推理能力方面的巨大潛力。未來,基于PRIME方法和更強的基座模型,有潛力訓練出接近OpenAI o1的模型。強化學習作為連接已有智能體和現實世界的橋梁,以及將世界反饋內化為模型智能的路徑,將在下一代人工智能發展中發揮重要作用。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破