<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        1/30訓(xùn)練步驟復(fù)刻DeepSeek-R1-Zero,沈向洋姜大昕張祥雨等開源推理模型RL訓(xùn)練方法

        AIGC動態(tài)5個月前發(fā)布 量子位
        463 0 0

        復(fù)雜獎勵函數(shù)不是必要的

        1/30訓(xùn)練步驟復(fù)刻DeepSeek-R1-Zero,沈向洋姜大昕張祥雨等開源推理模型RL訓(xùn)練方法

        原標(biāo)題:1/30訓(xùn)練步驟復(fù)刻DeepSeek-R1-Zero,沈向洋姜大昕張祥雨等開源推理模型RL訓(xùn)練方法
        文章來源:量子位
        內(nèi)容字?jǐn)?shù):2237字

        階躍星辰與清華聯(lián)合發(fā)布Open Reasoner Zero (ORZ):高效的開源大模型推理訓(xùn)練方法

        近日,國內(nèi)大模型六小強(qiáng)之一的階躍星辰聯(lián)手清華大學(xué),發(fā)布了名為Open Reasoner Zero (ORZ) 的全新開源大模型。該項目由沈向洋、姜大昕、張祥雨等AI領(lǐng)域知名學(xué)者和專家領(lǐng)銜,其高效的訓(xùn)練方法和令人矚目的結(jié)果,迅速引發(fā)了廣泛關(guān)注。

        1. 高效的訓(xùn)練方法:突破DeepSeek-R1-Zero的訓(xùn)練效率

        與DeepSeek-R1-Zero相比,ORZ在訓(xùn)練效率上取得了顯著突破。在響應(yīng)長度方面,ORZ僅需約17% 的訓(xùn)練步驟就能達(dá)到DeepSeek-R1-Zero 671B 的水平;在RL訓(xùn)練方法方面,ORZ僅需 1/30 的訓(xùn)練步驟就能達(dá)到相同尺寸DeepSeek-R1-Zero蒸餾Qwen的水平。這主要歸功于ORZ采用的極簡主義訓(xùn)練方法:結(jié)合了帶有GAE (Generalized Advantage Estimation) 的原版PPO算法 (GAE λ=1,折扣因子γ=1) 和基于規(guī)則的獎勵函數(shù),無需復(fù)雜的獎勵函數(shù)設(shè)計。

        2. “頓悟時刻”的發(fā)現(xiàn):訓(xùn)練過程中的涌現(xiàn)現(xiàn)象

        ORZ團(tuán)隊在訓(xùn)練過程中觀察到一個有趣的現(xiàn)象:在訓(xùn)練步驟約680步時,模型的訓(xùn)練獎勵值、反思能力和回答長度同時出現(xiàn)顯著提升,類似于DeepSeek-R1-Zero論文中描述的“頓悟時刻”(aha moment)。這種現(xiàn)象也類似于涌現(xiàn)行為,在以Qwen2.5-Base-7B為基礎(chǔ)模型的實驗中,所有基準(zhǔn)測試在某個時間點都會經(jīng)歷獎勵和響應(yīng)長度的突然增加。

        3. 穩(wěn)定的訓(xùn)練:無需KL正則化

        ORZ在訓(xùn)練過程中無需依賴任何基于KL散度的正則化技術(shù),便實現(xiàn)了穩(wěn)定的訓(xùn)練。這與RLHF和推理模型領(lǐng)域目前的認(rèn)知有所不同,為進(jìn)一步擴(kuò)大強(qiáng)化學(xué)習(xí)規(guī)模提供了新的希望。

        4. 數(shù)據(jù)的重要性:大規(guī)模多樣化數(shù)據(jù)集是關(guān)鍵

        研究表明,數(shù)據(jù)數(shù)量和多樣性對ORZ的訓(xùn)練至關(guān)重要。在有限的學(xué)術(shù)數(shù)據(jù)集上訓(xùn)練會導(dǎo)致性能快速達(dá)到平臺期,而精心策劃的大規(guī)模多樣化數(shù)據(jù)集能夠?qū)崿F(xiàn)持續(xù)擴(kuò)展,在訓(xùn)練集和測試集上都沒有飽和的跡象。在整個訓(xùn)練過程中,平均正確反思長度始終高于平均響應(yīng)長度。

        5. 優(yōu)異的性能:超越Qwen2.5 Instruct

        最終,ORZ模型在MMLU和MMLU_PRO基準(zhǔn)測試中,無需任何額外的指令調(diào)整即可超越Qwen2.5 Instruct。

        6. 完全開源:促進(jìn)社區(qū)協(xié)作

        ORZ項目已100% 開源,包括訓(xùn)練數(shù)據(jù)、訓(xùn)練代碼、論文和模型,并采用寬松的MIT許可證,開源48小時內(nèi)已獲得700多個星標(biāo)。這將極大地促進(jìn)社區(qū)協(xié)作和模型的進(jìn)一步發(fā)展。

        總之,Open Reasoner Zero 的發(fā)布標(biāo)志著大模型訓(xùn)練方法的一次重要突破。其高效的訓(xùn)練方法、令人驚嘆的性能以及完全開源的特性,為大模型研究和應(yīng)用帶來了新的可能性,也為國內(nèi)大模型的發(fā)展貢獻(xiàn)了重要力量。


        聯(lián)系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 女人张开腿给人桶免费视频| 成人免费观看男女羞羞视频| 午夜老司机永久免费看片| 东方aⅴ免费观看久久av| 国产在线观a免费观看| 亚洲中文无韩国r级电影| 黄色免费在线网址| 免费国产怡红院在线观看| 国产亚洲精品资源在线26u| 一级特黄色毛片免费看| 亚洲综合在线另类色区奇米| 亚洲综合国产精品| 久久精品毛片免费观看| 亚洲黄色三级视频| 国产男女爽爽爽爽爽免费视频| 亚洲国产精品日韩在线观看 | 一级做a免费视频观看网站| www国产亚洲精品久久久| 特级做a爰片毛片免费看| 久久亚洲AV永久无码精品| 中文字幕无码日韩专区免费| 精品免费国产一区二区三区| 久久久久久毛片免费播放| 毛片免费vip会员在线看| 亚洲电影免费在线观看| 免费无码av片在线观看| www永久免费视频| 免费在线观影网站| 亚洲免费观看在线视频| 成人免费一区二区无码视频| 91久久精品国产免费直播| 91九色老熟女免费资源站| 啊灬啊灬别停啊灬用力啊免费看| 成人国产mv免费视频| 国产精品亚洲综合一区| 亚洲成av人片在线看片| 亚洲国产成人精品无码区二本 | 免费特级黄毛片在线成人观看 | 极品美女一级毛片免费| 亚洲AV永久无码天堂影院| 男女男精品网站免费观看|