Deepseek R1 Zero成功復(fù)現(xiàn)全過(guò)程記錄

Deepseek真是越來(lái)越強(qiáng)了。

原標(biāo)題：Deepseek R1 Zero成功復(fù)現(xiàn)全過(guò)程記錄
文章來(lái)源：智猩猩GenAI
內(nèi)容字?jǐn)?shù)：6393字

基于規(guī)則的強(qiáng)化學(xué)習(xí)提升大型語(yǔ)言模型邏輯推理能力

本文介紹了一個(gè)利用強(qiáng)化學(xué)習(xí) (RL) 提升大型語(yǔ)言模型 (LLM) 邏輯推理能力的項(xiàng)目。該項(xiàng)目使用 Qwen 7B 作為基座模型，通過(guò)三階段的基于規(guī)則的強(qiáng)化學(xué)習(xí)，顯著提高了模型在邏輯推理任務(wù)上的準(zhǔn)確率，并涌現(xiàn)出一些令人驚喜的能力。

1. 項(xiàng)目成果

該項(xiàng)目成功地將 Qwen 7B 模型在邏輯推理任務(wù)上的準(zhǔn)確率從 0.2 提升至 0.41，超越了 GPT-4 (準(zhǔn)確率約 0.3)。更重要的是，模型在 RL 訓(xùn)練后涌現(xiàn)出了一些高級(jí)推理能力，例如：遲疑、多路徑探索、回溯、階段性總結(jié)以及答案驗(yàn)證等。此外，模型的平均回復(fù)長(zhǎng)度也增加了約 50%。

2. 實(shí)驗(yàn)設(shè)置

該項(xiàng)目使用了不到 2000 條人工合成的訓(xùn)練數(shù)據(jù)，這些數(shù)據(jù)類似于“老實(shí)人和騙子”類型的益智題。為了避免獎(jiǎng)勵(lì)黑客行為，獎(jiǎng)勵(lì)函數(shù)僅由格式獎(jiǎng)勵(lì)和答案獎(jiǎng)勵(lì)兩部分組成。基座模型選擇 Qwen 7B，放棄了最初選擇的 Qwen-math-7B，因?yàn)楹笳咧噶罡S能力較弱，且輸出風(fēng)格難以控制。RL 算法采用 Reinforce，訓(xùn)練批次大小為 8。

3. 三階段強(qiáng)化學(xué)習(xí)

該項(xiàng)目采用三階段 RL 訓(xùn)練策略：

階段一：課程學(xué)習(xí)與格式遵循：使用簡(jiǎn)單邏輯題進(jìn)行預(yù)訓(xùn)練，重點(diǎn)學(xué)習(xí) “ 和 “ 標(biāo)簽的格式。此階段模型快速學(xué)習(xí)了格式，準(zhǔn)確率也得到提升。
階段二：高溫采樣與大量 rollout：使用更復(fù)雜的邏輯題進(jìn)行訓(xùn)練，并采用高溫采樣 (溫度約 1.2) 和大 rollout 來(lái)增加模型輸出的多樣性，探索更豐富的推理策略。此階段模型出現(xiàn)了一些有趣的“崩壞”現(xiàn)象，例如試圖在輸出答案后重新進(jìn)入思考階段，但被格式獎(jiǎng)勵(lì)懲罰。
階段三：漫長(zhǎng)的退火采樣：逐步降低采樣溫度，模型輸出逐漸成熟，具備了遲疑、回溯、總結(jié)和驗(yàn)證等高級(jí)推理能力。此階段模型收斂速度較慢。

4. 令人驚喜的發(fā)現(xiàn)

該項(xiàng)目中，模型出現(xiàn)了一些意想不到的現(xiàn)象：模型有時(shí)會(huì)混合使用中文和英文進(jìn)行思考，最終答案仍為英文；模型的回復(fù)長(zhǎng)度顯著增加，平均長(zhǎng)度提升了約 50%。這些現(xiàn)象暗示了模型在推理過(guò)程中可能使用了人類難以理解的策略。

5. 未來(lái)工作

研究者計(jì)劃進(jìn)一步探索模型輸出中語(yǔ)言混合現(xiàn)象的原因，以及模型內(nèi)部的推理機(jī)制。此外，他們還計(jì)劃將該模型應(yīng)用于其他邏輯推理任務(wù)，例如 GSM8K。

6. 總結(jié)

該項(xiàng)目通過(guò)三階段基于規(guī)則的強(qiáng)化學(xué)習(xí)，成功地提升了 Qwen 7B 模型的邏輯推理能力，并涌現(xiàn)出了一些高級(jí)推理能力。該項(xiàng)目的研究結(jié)果為 LLM 的邏輯推理能力提升提供了新的思路和方法。

聯(lián)系作者

文章來(lái)源：智猩猩GenAI
作者微信：
作者簡(jiǎn)介：智猩猩旗下賬號(hào)，專注于生成式人工智能，主要分享技術(shù)文章、論文成果與產(chǎn)品信息。

閱讀原文

# AIGC動(dòng)態(tài)# AI模型可復(fù)現(xiàn)性 # DeepSeekR1Zero復(fù)現(xiàn)# 大型語(yǔ)言模型訓(xùn)練復(fù)現(xiàn)# 開(kāi)源AI模型復(fù)現(xiàn)# 強(qiáng)化學(xué)習(xí)算法復(fù)現(xiàn)

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。

暫無(wú)評(píng)論

暫無(wú)評(píng)論...

Deepseek R1 Zero成功復(fù)現(xiàn)全過(guò)程記錄

Deepseek真是越來(lái)越強(qiáng)了。

基于規(guī)則的強(qiáng)化學(xué)習(xí)提升大型語(yǔ)言模型邏輯推理能力

1. 項(xiàng)目成果

2. 實(shí)驗(yàn)設(shè)置

3. 三階段強(qiáng)化學(xué)習(xí)

4. 令人驚喜的發(fā)現(xiàn)

5. 未來(lái)工作

6. 總結(jié)

聯(lián)系作者

LLM時(shí)代，計(jì)算蛋白質(zhì)科學(xué)進(jìn)展如何？香港理工大學(xué)等發(fā)布系統(tǒng)性綜述

「鯰魚(yú)」DeepSeek 正在攪動(dòng)上下游

相關(guān)文章

暫無(wú)評(píng)論

ChatGPT

畢業(yè)論文生成器

AIGC熱點(diǎn)