<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        Long-Cot該如何做之RedStar&Zero-RL的啟示

        AIGC動(dòng)態(tài)5個(gè)月前發(fā)布 智猩猩GenAI
        477 0 0

        本文主要介紹我們在弱teacher上蒸餾的經(jīng)驗(yàn)和在zero-rl的一些新的結(jié)果和思考。

        Long-Cot該如何做之RedStar&Zero-RL的啟示

        原標(biāo)題:Long-Cot該如何做之RedStar&Zero-RL的啟示
        文章來源:智猩猩GenAI
        內(nèi)容字?jǐn)?shù):10361字

        智猩猩AI新青年講座:深度推理模型專題

        本文總結(jié)了知乎文章“智猩猩AI新青年講座最新增設(shè)DeepSeek R1與推理模型專題”的主要內(nèi)容,該文章探討了近期深度推理模型的突破性進(jìn)展,特別是DeepSeek R1系列模型的優(yōu)秀表現(xiàn)以及Zero-RL范式的革新。

        1. DeepSeek R1及近期深度推理模型進(jìn)展

        近期,多個(gè)深度推理模型井噴式發(fā)布,包括DeepSeek-R1、Kimi1.5和Baichuan-M1等。DeepSeek R1系列通過蒸餾強(qiáng)Teacher模型到Qwen25全家桶,顯著提升了推理能力,且訓(xùn)練成本僅需4500美元,1.5B的小模型推理能力超越了o1-preview。Zero系列則實(shí)現(xiàn)了范式轉(zhuǎn)移,省去了SFT階段,降低了人工數(shù)據(jù)標(biāo)注成本。DeepSeek R1和Kimi1.5則采用傳統(tǒng)的pretrain→SFT→RL方法,在成本和效果上取得了平衡。值得注意的是,R1模型不僅理科能力強(qiáng),創(chuàng)作能力也十分出色,引發(fā)了關(guān)于推理能力是否提升通用能力的關(guān)鍵因素的討論。

        2. RedStar項(xiàng)目及深度推理蒸餾經(jīng)驗(yàn)

        RedStar項(xiàng)目探討了深度推理數(shù)據(jù)規(guī)模、模型規(guī)模、難度等級以及多模態(tài)對推理能力的影響。研究表明,更高難度的數(shù)據(jù)能更顯著提升推理能力;模型規(guī)模越大越好;盲目增加數(shù)據(jù)量提升有限;中等尺寸的RL-scaling能進(jìn)一步提升效果;僅使用code數(shù)據(jù)訓(xùn)練也能提升math能力;深度推理模型在通用評測上的表現(xiàn)相對較好,但會(huì)影響指令遵循能力;多模態(tài)深度推理需要考慮視覺感知層面的深度推理。

        3. DeepSeek-Zero帶來的啟發(fā)

        DeepSeek-Zero的成功訓(xùn)練帶來了新的想象空間。文章探討了如何從policy-gradient+kl-constraint的角度出發(fā),得到最優(yōu)分布,并通過MCMC采樣或RL方法獲取最優(yōu)分布的樣本。與傳統(tǒng)的pretrain→SFT→RL流程相比,Zero-RL省去了SFT階段,能夠更好地優(yōu)化base-model,提升RL-scale的效果和收斂效率。文章也提出了Zero-RL需要解決的關(guān)鍵問題,例如什么樣的基座模型適合Zero-RL,如何選擇RL算法等。

        4. RL-Scaling的未來方向

        文章展望了RL-scaling的三個(gè)階段:粗獷式RL、精細(xì)式RL和協(xié)同式RL。協(xié)同式RL將涉及多模態(tài)協(xié)同優(yōu)化、混合范式協(xié)同訓(xùn)練和系統(tǒng)級協(xié)同部署等技術(shù)。文章還強(qiáng)調(diào)了構(gòu)建適用于LLM的Gym環(huán)境、難度分級的prompt以及已有數(shù)據(jù)的可驗(yàn)證任務(wù)生成的重要性。

        5. 總結(jié)

        本文總結(jié)了深度推理模型的最新進(jìn)展,重點(diǎn)介紹了DeepSeek R1和Zero-RL的突破性成果,并對未來深度推理模型的發(fā)展方向進(jìn)行了展望。文章認(rèn)為,推理能力的提升可能是提升通用能力的關(guān)鍵,而更強(qiáng)的Teacher模型能夠蒸餾出更強(qiáng)的Student模型。 同時(shí),Zero-RL以及基于MCMC采樣的方法為優(yōu)化base-model和提升RL-scale提供了新的思路。


        聯(lián)系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下賬號(hào),專注于生成式人工智能,主要分享技術(shù)文章、論文成果與產(chǎn)品信息。

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲高清免费在线观看| 亚洲精品无码久久久| 91成年人免费视频| 曰批全过程免费视频在线观看 | 一级毛片免费一级直接观看| 特级av毛片免费观看| 国产日韩精品无码区免费专区国产 | 久久久无码精品亚洲日韩软件| 亚洲AV电影院在线观看| 久久久久亚洲av无码专区喷水 | 永久免费无码网站在线观看个| 国产免费拔擦拔擦8X高清在线人| 99精品视频在线视频免费观看 | 在线视频免费观看爽爽爽| 亚洲国产精品免费在线观看| 亚洲第一第二第三第四第五第六 | 亚洲人成综合在线播放| 日韩在线一区二区三区免费视频 | 色播亚洲视频在线观看| 91福利免费视频| 亚洲尤码不卡AV麻豆| 亚洲女女女同性video| 免费观看久久精彩视频| 亚洲人成在线观看| 在线观看免费视频一区| 免费一级毛片清高播放| 亚洲熟妇av一区二区三区下载| 国产精品成人免费观看| 国产福利免费观看| 亚洲国产精品无码久久久| 成人性生交视频免费观看| 亚洲不卡av不卡一区二区| 色婷婷亚洲一区二区三区| 波多野结衣中文字幕免费视频| 亚洲欧美国产国产一区二区三区| 亚洲女人被黑人巨大进入| 日韩在线永久免费播放| 亚洲色精品三区二区一区| 丁香花在线观看免费观看| 亚洲国产亚洲片在线观看播放| 国产成人免费永久播放视频平台|