1/30訓(xùn)練步驟復(fù)刻DeepSeek-R1-Zero,沈向洋姜大昕張祥雨等開源推理模型RL訓(xùn)練方法
復(fù)雜獎勵函數(shù)不是必要的
原標(biāo)題:1/30訓(xùn)練步驟復(fù)刻DeepSeek-R1-Zero,沈向洋姜大昕張祥雨等開源推理模型RL訓(xùn)練方法
文章來源:量子位
內(nèi)容字?jǐn)?shù):2237字
階躍星辰與清華聯(lián)合發(fā)布Open Reasoner Zero (ORZ):高效的開源大模型推理訓(xùn)練方法
近日,國內(nèi)大模型六小強(qiáng)之一的階躍星辰聯(lián)手清華大學(xué),發(fā)布了名為Open Reasoner Zero (ORZ) 的全新開源大模型。該項目由沈向洋、姜大昕、張祥雨等AI領(lǐng)域知名學(xué)者和專家領(lǐng)銜,其高效的訓(xùn)練方法和令人矚目的結(jié)果,迅速引發(fā)了廣泛關(guān)注。
1. 高效的訓(xùn)練方法:突破DeepSeek-R1-Zero的訓(xùn)練效率
與DeepSeek-R1-Zero相比,ORZ在訓(xùn)練效率上取得了顯著突破。在響應(yīng)長度方面,ORZ僅需約17% 的訓(xùn)練步驟就能達(dá)到DeepSeek-R1-Zero 671B 的水平;在RL訓(xùn)練方法方面,ORZ僅需 1/30 的訓(xùn)練步驟就能達(dá)到相同尺寸DeepSeek-R1-Zero蒸餾Qwen的水平。這主要歸功于ORZ采用的極簡主義訓(xùn)練方法:結(jié)合了帶有GAE (Generalized Advantage Estimation) 的原版PPO算法 (GAE λ=1,折扣因子γ=1) 和基于規(guī)則的獎勵函數(shù),無需復(fù)雜的獎勵函數(shù)設(shè)計。
2. “頓悟時刻”的發(fā)現(xiàn):訓(xùn)練過程中的涌現(xiàn)現(xiàn)象
ORZ團(tuán)隊在訓(xùn)練過程中觀察到一個有趣的現(xiàn)象:在訓(xùn)練步驟約680步時,模型的訓(xùn)練獎勵值、反思能力和回答長度同時出現(xiàn)顯著提升,類似于DeepSeek-R1-Zero論文中描述的“頓悟時刻”(aha moment)。這種現(xiàn)象也類似于涌現(xiàn)行為,在以Qwen2.5-Base-7B為基礎(chǔ)模型的實驗中,所有基準(zhǔn)測試在某個時間點都會經(jīng)歷獎勵和響應(yīng)長度的突然增加。
3. 穩(wěn)定的訓(xùn)練:無需KL正則化
ORZ在訓(xùn)練過程中無需依賴任何基于KL散度的正則化技術(shù),便實現(xiàn)了穩(wěn)定的訓(xùn)練。這與RLHF和推理模型領(lǐng)域目前的認(rèn)知有所不同,為進(jìn)一步擴(kuò)大強(qiáng)化學(xué)習(xí)規(guī)模提供了新的希望。
4. 數(shù)據(jù)的重要性:大規(guī)模多樣化數(shù)據(jù)集是關(guān)鍵
研究表明,數(shù)據(jù)數(shù)量和多樣性對ORZ的訓(xùn)練至關(guān)重要。在有限的學(xué)術(shù)數(shù)據(jù)集上訓(xùn)練會導(dǎo)致性能快速達(dá)到平臺期,而精心策劃的大規(guī)模多樣化數(shù)據(jù)集能夠?qū)崿F(xiàn)持續(xù)擴(kuò)展,在訓(xùn)練集和測試集上都沒有飽和的跡象。在整個訓(xùn)練過程中,平均正確反思長度始終高于平均響應(yīng)長度。
5. 優(yōu)異的性能:超越Qwen2.5 Instruct
最終,ORZ模型在MMLU和MMLU_PRO基準(zhǔn)測試中,無需任何額外的指令調(diào)整即可超越Qwen2.5 Instruct。
6. 完全開源:促進(jìn)社區(qū)協(xié)作
ORZ項目已100% 開源,包括訓(xùn)練數(shù)據(jù)、訓(xùn)練代碼、論文和模型,并采用寬松的MIT許可證,開源48小時內(nèi)已獲得700多個星標(biāo)。這將極大地促進(jìn)社區(qū)協(xié)作和模型的進(jìn)一步發(fā)展。
總之,Open Reasoner Zero 的發(fā)布標(biāo)志著大模型訓(xùn)練方法的一次重要突破。其高效的訓(xùn)練方法、令人驚嘆的性能以及完全開源的特性,為大模型研究和應(yīng)用帶來了新的可能性,也為國內(nèi)大模型的發(fā)展貢獻(xiàn)了重要力量。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破