1/30訓(xùn)練步驟復(fù)刻DeepSeek-R1-Zero,沈向洋姜大昕張祥雨等開(kāi)源推理模型RL訓(xùn)練方法
復(fù)雜獎(jiǎng)勵(lì)函數(shù)不是必要的
原標(biāo)題:1/30訓(xùn)練步驟復(fù)刻DeepSeek-R1-Zero,沈向洋姜大昕張祥雨等開(kāi)源推理模型RL訓(xùn)練方法
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):2237字
階躍星辰與清華聯(lián)合發(fā)布Open Reasoner Zero (ORZ):高效的開(kāi)源大模型推理訓(xùn)練方法
近日,國(guó)內(nèi)大模型六小強(qiáng)之一的階躍星辰聯(lián)手清華大學(xué),發(fā)布了名為Open Reasoner Zero (ORZ) 的全新開(kāi)源大模型。該項(xiàng)目由沈向洋、姜大昕、張祥雨等AI領(lǐng)域知名學(xué)者和專(zhuān)家領(lǐng)銜,其高效的訓(xùn)練方法和令人矚目的結(jié)果,迅速引發(fā)了廣泛關(guān)注。
1. 高效的訓(xùn)練方法:突破DeepSeek-R1-Zero的訓(xùn)練效率
與DeepSeek-R1-Zero相比,ORZ在訓(xùn)練效率上取得了顯著突破。在響應(yīng)長(zhǎng)度方面,ORZ僅需約17% 的訓(xùn)練步驟就能達(dá)到DeepSeek-R1-Zero 671B 的水平;在RL訓(xùn)練方法方面,ORZ僅需 1/30 的訓(xùn)練步驟就能達(dá)到相同尺寸DeepSeek-R1-Zero蒸餾Qwen的水平。這主要?dú)w功于ORZ采用的極簡(jiǎn)主義訓(xùn)練方法:結(jié)合了帶有GAE (Generalized Advantage Estimation) 的原版PPO算法 (GAE λ=1,折扣因子γ=1) 和基于規(guī)則的獎(jiǎng)勵(lì)函數(shù),無(wú)需復(fù)雜的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)。
2. “頓悟時(shí)刻”的發(fā)現(xiàn):訓(xùn)練過(guò)程中的涌現(xiàn)現(xiàn)象
ORZ團(tuán)隊(duì)在訓(xùn)練過(guò)程中觀察到一個(gè)有趣的現(xiàn)象:在訓(xùn)練步驟約680步時(shí),模型的訓(xùn)練獎(jiǎng)勵(lì)值、反思能力和回答長(zhǎng)度同時(shí)出現(xiàn)顯著提升,類(lèi)似于DeepSeek-R1-Zero論文中描述的“頓悟時(shí)刻”(aha moment)。這種現(xiàn)象也類(lèi)似于涌現(xiàn)行為,在以Qwen2.5-Base-7B為基礎(chǔ)模型的實(shí)驗(yàn)中,所有基準(zhǔn)測(cè)試在某個(gè)時(shí)間點(diǎn)都會(huì)經(jīng)歷獎(jiǎng)勵(lì)和響應(yīng)長(zhǎng)度的突然增加。
3. 穩(wěn)定的訓(xùn)練:無(wú)需KL正則化
ORZ在訓(xùn)練過(guò)程中無(wú)需依賴(lài)任何基于KL散度的正則化技術(shù),便實(shí)現(xiàn)了穩(wěn)定的訓(xùn)練。這與RLHF和推理模型領(lǐng)域目前的認(rèn)知有所不同,為進(jìn)一步擴(kuò)大強(qiáng)化學(xué)習(xí)規(guī)模提供了新的希望。
4. 數(shù)據(jù)的重要性:大規(guī)模多樣化數(shù)據(jù)集是關(guān)鍵
研究表明,數(shù)據(jù)數(shù)量和多樣性對(duì)ORZ的訓(xùn)練至關(guān)重要。在有限的學(xué)術(shù)數(shù)據(jù)集上訓(xùn)練會(huì)導(dǎo)致性能快速達(dá)到平臺(tái)期,而精心策劃的大規(guī)模多樣化數(shù)據(jù)集能夠?qū)崿F(xiàn)持續(xù)擴(kuò)展,在訓(xùn)練集和測(cè)試集上都沒(méi)有飽和的跡象。在整個(gè)訓(xùn)練過(guò)程中,平均正確反思長(zhǎng)度始終高于平均響應(yīng)長(zhǎng)度。
5. 優(yōu)異的性能:超越Qwen2.5 Instruct
最終,ORZ模型在MMLU和MMLU_PRO基準(zhǔn)測(cè)試中,無(wú)需任何額外的指令調(diào)整即可超越Qwen2.5 Instruct。
6. 完全開(kāi)源:促進(jìn)社區(qū)協(xié)作
ORZ項(xiàng)目已100% 開(kāi)源,包括訓(xùn)練數(shù)據(jù)、訓(xùn)練代碼、論文和模型,并采用寬松的MIT許可證,開(kāi)源48小時(shí)內(nèi)已獲得700多個(gè)星標(biāo)。這將極大地促進(jìn)社區(qū)協(xié)作和模型的進(jìn)一步發(fā)展。
總之,Open Reasoner Zero 的發(fā)布標(biāo)志著大模型訓(xùn)練方法的一次重要突破。其高效的訓(xùn)練方法、令人驚嘆的性能以及完全開(kāi)源的特性,為大模型研究和應(yīng)用帶來(lái)了新的可能性,也為國(guó)內(nèi)大模型的發(fā)展貢獻(xiàn)了重要力量。
聯(lián)系作者
文章來(lái)源:量子位
作者微信:
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破