僅用 8 張顯卡和一萬塊錢,清華團隊用7B模型打敗GPT-4o數(shù)學推理
OpenAI o1 和 o3 模型的發(fā)布證明了強化學習能夠讓大模型擁有像人一樣的快速迭代試錯、深度思考的高階推理能力,在基于模仿學習的 Scaling Law 逐漸受到質疑的今天,基于探索的強化學習有望帶來新的 Scaling Law.
原標題:僅用 8 張顯卡和一萬塊錢,清華團隊用7B模型打敗GPT-4o數(shù)學推理
文章來源:AI前線
內容字數(shù):4107字
清華大合OpenBMB社區(qū)提出PRIME算法,低成本高效提升大模型數(shù)學推理能力
本文總結了清華大學NLP實驗室聯(lián)合上海AI Lab等機構提出的PRIME (Process Reinforcement through IMplicit REwards) 算法及其應用成果。該算法通過結合隱式過程獎勵的強化學習方法,顯著提升了大模型的數(shù)學推理能力,并在成本和效率方面取得突破。
1. 模仿學習的局限與強化學習的潛力
傳統(tǒng)的基于模仿學習的大模型訓練方法依賴于高質量的大規(guī)模數(shù)據(jù),而高質量數(shù)據(jù)往往稀缺且昂貴。OpenAI的o1和o3模型的成功案例表明,強化學習方法有潛力克服模仿學習的局限,并帶來新的Scaling Law。
2. PRIME算法的核心思想與優(yōu)勢
PRIME算法的核心在于利用隱式過程獎勵模型 (PRM)。PRM 僅需最終結果的正確與否進行訓練,即可隱式地建模過程獎勵,從而避免了顯式設計獎勵函數(shù)的困難。這帶來了三大優(yōu)勢:
- 過程獎勵: PRM 為每個token提供價值估計,無需額外訓練價值模型。
- 可擴展性: PRM 可在線更新,有效緩解分布偏移和可擴展性問題。
- 簡潔性: PRM 可直接用初始策略模型初始化,易于使用和擴展。
3. Eurus-2-7B-PRIME模型的突出表現(xiàn)
研究人員利用Qwen2.5-Math-7B-Base作為基座模型,采用PRIME算法訓練出Eurus-2-7B-PRIME模型。該模型在AIME 2024(美國IMO選拔考試)上的準確率達到26.7%,大幅超越GPT-4o、Llama-3.1-70B和Qwen2.5-Math-7B-Instruct,且僅使用了Qwen Math數(shù)據(jù)的1/10。強化學習方法PRIME為模型帶來了16.7%的絕對提升。
4. 低成本高效的訓練過程
值得注意的是,Eurus-2-7B-PRIME模型的訓練僅使用了8張A100顯卡,花費約一萬人民幣,不到10天時間就完成了訓練,展現(xiàn)了PRIME算法的高效性與低成本優(yōu)勢。
5. 開源項目的影響與未來展望
該項目開源后在海外AI社區(qū)引起廣泛關注,GitHub獲得400+ star。未來,基于PRIME方法和更強的基座模型,有潛力訓練出接近OpenAI o1水平的模型。
6. 強化學習的未來發(fā)展方向
文章最后指出,強化學習是連接大模型與現(xiàn)實世界的重要橋梁,將對下一代人工智能發(fā)展起到重要作用。PRIME算法的成功,為解決大模型強化學習中的獎勵稀疏問題提供了一種新的思路,有望進一步提升大模型的復雜推理能力。
聯(lián)系作者
文章來源:AI前線
作者微信:
作者簡介:面向AI愛好者、開發(fā)者和科學家,提供大模型最新資訊、AI技術分享干貨、一線業(yè)界實踐案例,助你全面擁抱AIGC。