200多行代碼，超低成本復(fù)現(xiàn)DeepSeek R1「Aha Moment」！復(fù)旦大學(xué)開源Simple-GRPO

用簡潔的代碼高效復(fù)現(xiàn) R1-zero 的自發(fā)反思能力。

原標(biāo)題：200多行代碼，超低成本復(fù)現(xiàn)DeepSeek R1「Aha Moment」！復(fù)旦大學(xué)開源Simple-GRPO
文章來源：智猩猩GenAI
內(nèi)容字?jǐn)?shù)：3901字

復(fù)旦大學(xué)團隊高效復(fù)現(xiàn)R1-zero自發(fā)反思能力：Simple-GRPO項目詳解

本文介紹了復(fù)旦大學(xué)知識工場實驗室肖仰華教授、梁家卿青年副研究員科研團隊最新研究成果：Simple-GRPO項目。該項目以簡潔的代碼高效復(fù)現(xiàn)了R1-zero的“頓悟時刻”（Aha Moment）——模型自發(fā)展現(xiàn)的自我反思和策略調(diào)整能力，并開源于Github (https://github.com/lsdefine/simple_GRPO)。

1. 背景：R1-zero復(fù)現(xiàn)的挑戰(zhàn)

DeepSeek論文中提出的R1-zero模型及其“頓悟時刻”引發(fā)了廣泛關(guān)注，許多研究者嘗試基于GRPO算法復(fù)現(xiàn)該能力。然而，現(xiàn)有復(fù)現(xiàn)項目存在代碼復(fù)雜、依賴性高、資源消耗大、可讀性和可維護性差等問題，阻礙了更廣泛的應(yīng)用和研究。

2. Simple-GRPO項目優(yōu)勢

Simple-GRPO項目有效解決了上述問題，其主要優(yōu)勢在于：

代碼簡潔：整個GRPO算法實現(xiàn)僅需200多行代碼，依賴庫僅為deepspeed和torch，無需ray等復(fù)雜框架。
資源消耗低：通過模型解耦與分離，降低了算力需求。項目可在單張A800 (80G)和單張3090 (24G)顯卡上完成7B模型的訓(xùn)練，顯著降低了訓(xùn)練成本（作者經(jīng)驗：單次實驗成本約合人民幣7.3元）。
高效訓(xùn)練：在該配置下，模型訓(xùn)練1小時即可出現(xiàn)“頓悟時刻”。Qwen2.5-3B訓(xùn)練60步需12分34秒，Qwen2.5-7B訓(xùn)練60步需16分40秒。

3. 技術(shù)實現(xiàn)細(xì)節(jié)

Simple-GRPO項目的主要技術(shù)細(xì)節(jié)包括：

參考模型分離：將參考模型解耦，允許其在不同的GPU上運行，避免了顯存浪費，使得在A800 (80G)上訓(xùn)練7B模型成為可能。
核心損失計算：基于Hugging Face的trl庫實現(xiàn)損失計算。
訓(xùn)練環(huán)境：在一張A800 (80G)上進行Zero-Stage 2優(yōu)化，另一張A800 (80G)用于參考模型推理。也可使用一張A800和一張3090。

4. 實驗結(jié)果

實驗結(jié)果表明，使用Qwen2.5-3B和Qwen2.5-7B作為基礎(chǔ)模型，在GSM8K和Math混合數(shù)據(jù)集上訓(xùn)練，模型的準(zhǔn)確率和格式遵循能力均達到預(yù)期效果。Qwen2.5-3B的準(zhǔn)確率在5步優(yōu)化后穩(wěn)定在60%以上，Qwen2.5-7B的準(zhǔn)確率始終保持在90%以上。

5. 未來改進方向

該項目未來將著重改進以下方面：

解決組內(nèi)答案同質(zhì)性問題：改進獎勵函數(shù)，避免組內(nèi)答案過于一致導(dǎo)致模型難以收斂。
解決長思維鏈顯存占用問題：通過拆分組別、減小批次大小或分階段處理長序列等方法，降低GPU內(nèi)存開銷，提升訓(xùn)練效率。

總之，Simple-GRPO項目提供了一個簡潔高效的R1-zero復(fù)現(xiàn)方案，為研究者提供了更易于訪問和使用的工具，推動了對大模型“頓悟時刻”機制的理解和研究。

聯(lián)系作者

文章來源：智猩猩GenAI
作者微信：
作者簡介：智猩猩旗下賬號，專注于生成式人工智能，主要分享技術(shù)文章、論文成果與產(chǎn)品信息。

閱讀原文

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

200多行代碼，超低成本復(fù)現(xiàn)DeepSeek R1「Aha Moment」！復(fù)旦大學(xué)開源Simple-GRPO

用簡潔的代碼高效復(fù)現(xiàn) R1-zero 的自發(fā)反思能力。

復(fù)旦大學(xué)團隊高效復(fù)現(xiàn)R1-zero自發(fā)反思能力：Simple-GRPO項目詳解

1. 背景：R1-zero復(fù)現(xiàn)的挑戰(zhàn)

2. Simple-GRPO項目優(yōu)勢

3. 技術(shù)實現(xiàn)細(xì)節(jié)

4. 實驗結(jié)果

5. 未來改進方向

聯(lián)系作者

馬斯克發(fā)布Grok3：多項測試超越DeepSeek，展現(xiàn)強勁競爭力

階躍同時開源視頻生成+實時語音模型，我愿稱之「多模態(tài)界的Deepseek」

相關(guān)文章

暫無評論

ChatGPT

畢業(yè)論文生成器

AIGC熱點