<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        200多行代碼,超低成本復(fù)現(xiàn)DeepSeek R1「Aha Moment」!復(fù)旦大學(xué)開源Simple-GRPO

        AIGC動態(tài)3個月前發(fā)布 智猩猩GenAI
        515 0 0

        用簡潔的代碼高效復(fù)現(xiàn) R1-zero 的自發(fā)反思能力。

        200多行代碼,超低成本復(fù)現(xiàn)DeepSeek R1「Aha Moment」!復(fù)旦大學(xué)開源Simple-GRPO

        原標(biāo)題:200多行代碼,超低成本復(fù)現(xiàn)DeepSeek R1「Aha Moment」!復(fù)旦大學(xué)開源Simple-GRPO
        文章來源:智猩猩GenAI
        內(nèi)容字?jǐn)?shù):3901字

        復(fù)旦大學(xué)團(tuán)隊(duì)高效復(fù)現(xiàn)R1-zero自發(fā)反思能力:Simple-GRPO項(xiàng)目詳解

        本文介紹了復(fù)旦大學(xué)知識工場實(shí)驗(yàn)室肖仰華教授、梁家卿青年副研究員科研團(tuán)隊(duì)最新研究成果:Simple-GRPO項(xiàng)目。該項(xiàng)目以簡潔的代碼高效復(fù)現(xiàn)了R1-zero的“頓悟時刻”(Aha Moment)——模型自發(fā)展現(xiàn)的自我反思和策略調(diào)整能力,并開源于Github (https://github.com/lsdefine/simple_GRPO)。

        1. 背景:R1-zero復(fù)現(xiàn)的挑戰(zhàn)

        DeepSeek論文中提出的R1-zero模型及其“頓悟時刻”引發(fā)了廣泛關(guān)注,許多研究者嘗試基于GRPO算法復(fù)現(xiàn)該能力。然而,現(xiàn)有復(fù)現(xiàn)項(xiàng)目存在代碼復(fù)雜、依賴性高、資源消耗大、可讀性和可維護(hù)性差等問題,阻礙了更廣泛的應(yīng)用和研究。

        2. Simple-GRPO項(xiàng)目優(yōu)勢

        Simple-GRPO項(xiàng)目有效解決了上述問題,其主要優(yōu)勢在于:

        1. 代碼簡潔:整個GRPO算法實(shí)現(xiàn)僅需200多行代碼,依賴庫僅為deepspeed和torch,無需ray等復(fù)雜框架。
        2. 資源消耗低:通過模型解耦與分離,降低了算力需求。項(xiàng)目可在單張A800 (80G)和單張3090 (24G)顯卡上完成7B模型的訓(xùn)練,顯著降低了訓(xùn)練成本(作者經(jīng)驗(yàn):單次實(shí)驗(yàn)成本約合人民幣7.3元)。
        3. 高效訓(xùn)練:在該配置下,模型訓(xùn)練1小時即可出現(xiàn)“頓悟時刻”。Qwen2.5-3B訓(xùn)練60步需12分34秒,Qwen2.5-7B訓(xùn)練60步需16分40秒。

        3. 技術(shù)實(shí)現(xiàn)細(xì)節(jié)

        Simple-GRPO項(xiàng)目的主要技術(shù)細(xì)節(jié)包括:

        1. 參考模型分離:將參考模型解耦,允許其在不同的GPU上運(yùn)行,避免了顯存浪費(fèi),使得在A800 (80G)上訓(xùn)練7B模型成為可能。
        2. 核心損失計算:基于Hugging Face的trl庫實(shí)現(xiàn)損失計算。
        3. 訓(xùn)練環(huán)境:在一張A800 (80G)上進(jìn)行Zero-Stage 2優(yōu)化,另一張A800 (80G)用于參考模型推理。也可使用一張A800和一張3090。

        4. 實(shí)驗(yàn)結(jié)果

        實(shí)驗(yàn)結(jié)果表明,使用Qwen2.5-3B和Qwen2.5-7B作為基礎(chǔ)模型,在GSM8K和Math混合數(shù)據(jù)集上訓(xùn)練,模型的準(zhǔn)確率和格式遵循能力均達(dá)到預(yù)期效果。Qwen2.5-3B的準(zhǔn)確率在5步優(yōu)化后穩(wěn)定在60%以上,Qwen2.5-7B的準(zhǔn)確率始終保持在90%以上。

        5. 未來改進(jìn)方向

        該項(xiàng)目未來將著重改進(jìn)以下方面:

        1. 解決組內(nèi)答案同質(zhì)性問題:改進(jìn)獎勵函數(shù),避免組內(nèi)答案過于一致導(dǎo)致模型難以收斂。
        2. 解決長思維鏈顯存占用問題:通過拆分組別、減小批次大小或分階段處理長序列等方法,降低GPU內(nèi)存開銷,提升訓(xùn)練效率。

        總之,Simple-GRPO項(xiàng)目提供了一個簡潔高效的R1-zero復(fù)現(xiàn)方案,為研究者提供了更易于訪問和使用的工具,推動了對大模型“頓悟時刻”機(jī)制的理解和研究。


        聯(lián)系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術(shù)文章、論文成果與產(chǎn)品信息。

        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 伊在人亚洲香蕉精品区麻豆| 麻豆国产入口在线观看免费| 亚洲av综合avav中文| 女人18特级一级毛片免费视频| 羞羞视频免费观看| 国产亚洲精品成人AA片新蒲金| 青青视频免费在线| 亚洲六月丁香婷婷综合| 区三区激情福利综合中文字幕在线一区亚洲视频1| **一级毛片免费完整视| 国产拍拍拍无码视频免费| 精品久久亚洲一级α| 亚洲无线观看国产精品| 黄色网址免费观看| 毛片无码免费无码播放| 人妻在线日韩免费视频| 一级黄色免费毛片| 亚洲国产精品人久久电影| 亚洲精品国产精品乱码不99| 成年女人男人免费视频播放 | 中文字幕av无码无卡免费| 最好看最新的中文字幕免费| 亚洲日本VA午夜在线电影| 亚洲日本香蕉视频观看视频| 亚洲av中文无码乱人伦在线播放| 国产精品xxxx国产喷水亚洲国产精品无码久久一区 | 男女做羞羞的事视频免费观看无遮挡 | 蜜臀98精品国产免费观看| 国产一区二区免费视频| 精品视频一区二区三区免费| 中文字幕在线免费看线人| 亚洲日产2021三区| 亚洲乱码日产精品BD在线观看| 亚洲伊人久久大香线焦| 亚洲国产品综合人成综合网站| 亚洲香蕉免费有线视频| 亚洲欧洲国产成人精品| 亚洲免费视频网址| 亚洲人成www在线播放| 亚洲AV日韩AV永久无码久久| 亚洲va在线va天堂va四虎|