<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        1/30訓(xùn)練步驟復(fù)刻DeepSeek-R1-Zero,沈向洋姜大昕張祥雨等開(kāi)源推理模型RL訓(xùn)練方法

        AIGC動(dòng)態(tài)3個(gè)月前發(fā)布 量子位
        459 0 0

        復(fù)雜獎(jiǎng)勵(lì)函數(shù)不是必要的

        1/30訓(xùn)練步驟復(fù)刻DeepSeek-R1-Zero,沈向洋姜大昕張祥雨等開(kāi)源推理模型RL訓(xùn)練方法

        原標(biāo)題:1/30訓(xùn)練步驟復(fù)刻DeepSeek-R1-Zero,沈向洋姜大昕張祥雨等開(kāi)源推理模型RL訓(xùn)練方法
        文章來(lái)源:量子位
        內(nèi)容字?jǐn)?shù):2237字

        階躍星辰與清華聯(lián)合發(fā)布Open Reasoner Zero (ORZ):高效的開(kāi)源大模型推理訓(xùn)練方法

        近日,國(guó)內(nèi)大模型六小強(qiáng)之一的階躍星辰聯(lián)手清華大學(xué),發(fā)布了名為Open Reasoner Zero (ORZ) 的全新開(kāi)源大模型。該項(xiàng)目由沈向洋、姜大昕、張祥雨等AI領(lǐng)域知名學(xué)者和專(zhuān)家領(lǐng)銜,其高效的訓(xùn)練方法和令人矚目的結(jié)果,迅速引發(fā)了廣泛關(guān)注。

        1. 高效的訓(xùn)練方法:突破DeepSeek-R1-Zero的訓(xùn)練效率

        與DeepSeek-R1-Zero相比,ORZ在訓(xùn)練效率上取得了顯著突破。在響應(yīng)長(zhǎng)度方面,ORZ僅需約17% 的訓(xùn)練步驟就能達(dá)到DeepSeek-R1-Zero 671B 的水平;在RL訓(xùn)練方法方面,ORZ僅需 1/30 的訓(xùn)練步驟就能達(dá)到相同尺寸DeepSeek-R1-Zero蒸餾Qwen的水平。這主要?dú)w功于ORZ采用的極簡(jiǎn)主義訓(xùn)練方法:結(jié)合了帶有GAE (Generalized Advantage Estimation) 的原版PPO算法 (GAE λ=1,折扣因子γ=1) 和基于規(guī)則的獎(jiǎng)勵(lì)函數(shù),無(wú)需復(fù)雜的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)。

        2. “頓悟時(shí)刻”的發(fā)現(xiàn):訓(xùn)練過(guò)程中的涌現(xiàn)現(xiàn)象

        ORZ團(tuán)隊(duì)在訓(xùn)練過(guò)程中觀察到一個(gè)有趣的現(xiàn)象:在訓(xùn)練步驟約680步時(shí),模型的訓(xùn)練獎(jiǎng)勵(lì)值、反思能力和回答長(zhǎng)度同時(shí)出現(xiàn)顯著提升,類(lèi)似于DeepSeek-R1-Zero論文中描述的“頓悟時(shí)刻”(aha moment)。這種現(xiàn)象也類(lèi)似于涌現(xiàn)行為,在以Qwen2.5-Base-7B為基礎(chǔ)模型的實(shí)驗(yàn)中,所有基準(zhǔn)測(cè)試在某個(gè)時(shí)間點(diǎn)都會(huì)經(jīng)歷獎(jiǎng)勵(lì)和響應(yīng)長(zhǎng)度的突然增加。

        3. 穩(wěn)定的訓(xùn)練:無(wú)需KL正則化

        ORZ在訓(xùn)練過(guò)程中無(wú)需依賴(lài)任何基于KL散度的正則化技術(shù),便實(shí)現(xiàn)了穩(wěn)定的訓(xùn)練。這與RLHF和推理模型領(lǐng)域目前的認(rèn)知有所不同,為進(jìn)一步擴(kuò)大強(qiáng)化學(xué)習(xí)規(guī)模提供了新的希望。

        4. 數(shù)據(jù)的重要性:大規(guī)模多樣化數(shù)據(jù)集是關(guān)鍵

        研究表明,數(shù)據(jù)數(shù)量和多樣性對(duì)ORZ的訓(xùn)練至關(guān)重要。在有限的學(xué)術(shù)數(shù)據(jù)集上訓(xùn)練會(huì)導(dǎo)致性能快速達(dá)到平臺(tái)期,而精心策劃的大規(guī)模多樣化數(shù)據(jù)集能夠?qū)崿F(xiàn)持續(xù)擴(kuò)展,在訓(xùn)練集和測(cè)試集上都沒(méi)有飽和的跡象。在整個(gè)訓(xùn)練過(guò)程中,平均正確反思長(zhǎng)度始終高于平均響應(yīng)長(zhǎng)度。

        5. 優(yōu)異的性能:超越Qwen2.5 Instruct

        最終,ORZ模型在MMLU和MMLU_PRO基準(zhǔn)測(cè)試中,無(wú)需任何額外的指令調(diào)整即可超越Qwen2.5 Instruct。

        6. 完全開(kāi)源:促進(jìn)社區(qū)協(xié)作

        ORZ項(xiàng)目已100% 開(kāi)源,包括訓(xùn)練數(shù)據(jù)、訓(xùn)練代碼、論文和模型,并采用寬松的MIT許可證,開(kāi)源48小時(shí)內(nèi)已獲得700多個(gè)星標(biāo)。這將極大地促進(jìn)社區(qū)協(xié)作和模型的進(jìn)一步發(fā)展。

        總之,Open Reasoner Zero 的發(fā)布標(biāo)志著大模型訓(xùn)練方法的一次重要突破。其高效的訓(xùn)練方法、令人驚嘆的性能以及完全開(kāi)源的特性,為大模型研究和應(yīng)用帶來(lái)了新的可能性,也為國(guó)內(nèi)大模型的發(fā)展貢獻(xiàn)了重要力量。


        聯(lián)系作者

        文章來(lái)源:量子位
        作者微信:
        作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破

        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無(wú)評(píng)論

        暫無(wú)評(píng)論...
        主站蜘蛛池模板: WWW国产成人免费观看视频| 91亚洲国产在人线播放午夜 | 亚洲美女视频免费| 成全动漫视频在线观看免费高清版下载| 久久精品国产亚洲沈樵| 亚洲精品麻豆av| 亚洲中文无韩国r级电影| 亚洲AV成人潮喷综合网| 亚洲国产av一区二区三区| 亚洲美女高清一区二区三区| 久久青青草原亚洲av无码| 亚洲一区二区三区自拍公司| 亚洲Aⅴ无码专区在线观看q | 国产精品免费观看视频| 黄页网址在线免费观看| 一级毛片无遮挡免费全部| 国产97视频人人做人人爱免费| 亚洲国产成人久久综合碰碰动漫3d | 国产A在亚洲线播放| 亚洲中文字幕无码不卡电影| 国产福利电影一区二区三区,亚洲国模精品一区 | 毛片在线全部免费观看| 在线涩涩免费观看国产精品| 鲁丝片一区二区三区免费| 最近中文字幕免费2019| 欧洲黑大粗无码免费| 国产在线ts人妖免费视频| 亚洲精品视频免费| 亚洲五月综合缴情在线观看| 亚洲第一福利网站| 亚洲三级视频在线观看| 国产亚洲欧美日韩亚洲中文色| 亚洲精品不卡视频| 一本色道久久88—综合亚洲精品 | 亚洲专区先锋影音| 中文字幕亚洲精品无码| 乱人伦中文视频在线观看免费| 亚洲av无码专区亚洲av不卡| 一本久久A久久免费精品不卡| 国产精品亚洲精品日韩电影| 中国一级全黄的免费观看|