推理模型的GPT 2時刻!DeepSeek-R1技術(shù)解讀
首個公開發(fā)布release模型并分享成功方法和失敗嘗試的報告
原標(biāo)題:推理模型的GPT 2時刻!DeepSeek-R1技術(shù)解讀
文章來源:智猩猩GenAI
內(nèi)容字數(shù):5303字
DeepSeek-R1: Reasoning LLM的GPT-2時刻
本文總結(jié)了知乎文章《DeepSeek-R1: Reasoning LLM的GPT-2時刻》的核心內(nèi)容,該文章介紹了DeepSeek-R1模型的訓(xùn)練方法,并討論了相關(guān)嘗試和未來方向。
1. DeepSeek-R1 模型概述
DeepSeek-R1是一個強大的推理大型語言模型,其核心在于結(jié)合了簡單的強化學(xué)習(xí)算法(GRPO)和精確的獎勵信號(類似Tulu3的RLVF),無需復(fù)雜的蒙特卡洛樹搜索(MCTS)或規(guī)劃圖(PRM)。文章介紹了兩種訓(xùn)練模型:R1-zero和R1。
2. R1-zero: 純強化學(xué)習(xí)訓(xùn)練
R1-zero直接基于基礎(chǔ)模型進行強化學(xué)習(xí)訓(xùn)練,無需中間的監(jiān)督微調(diào)(SFT)階段。它利用基于規(guī)則的獎勵機制(Rule-based RM),通過prompt引導(dǎo)模型在“和“標(biāo)簽之間輸出推理過程,并在“和“標(biāo)簽之間輸出最終答案。獎勵信號的設(shè)計非常關(guān)鍵,例如數(shù)學(xué)題的答案以特定格式輸出,代碼題則通過編譯器反饋進行驗證。
3. R1: 多階段訓(xùn)練
R1-zero存在推理過程可讀性差以及混合語言輸出的問題。因此,R1采用多階段訓(xùn)練流程來解決這些問題:
- 冷啟動階段:利用少量高質(zhì)量的人工標(biāo)注數(shù)據(jù)進行冷啟動,提高推理過程的可讀性。
- 推理導(dǎo)向強化學(xué)習(xí)階段:專注于提升模型在數(shù)學(xué)、代碼、科學(xué)和邏輯推理等任務(wù)上的性能,并引入語言一致性獎勵來解決混合語言輸出的問題。
- 拒絕采樣+監(jiān)督微調(diào)階段:收集大量數(shù)據(jù),包括推理數(shù)據(jù)和通用領(lǐng)域數(shù)據(jù)。推理數(shù)據(jù)采用拒絕采樣方法,過濾掉可讀性差的數(shù)據(jù);通用領(lǐng)域數(shù)據(jù)則部分采用DeepSeek-V3進行數(shù)據(jù)增強。
- 全場景強化學(xué)習(xí)階段:進一步對齊人類偏好,提升模型的幫助性和無害性,并細化推理能力。
4. 失敗的嘗試
文章也總結(jié)了幾個失敗的嘗試,包括PRM和MCTS。PRM難以明確定義步驟并評估其準確性,且存在獎勵作弊問題;MCTS由于LLM的token空間巨大,難以擴展。
5. 討論與展望
文章最后提出了幾個疑問和未來的研究方向:
- R1-zero的成功是否依賴于強大的預(yù)訓(xùn)練模型?
- 如何設(shè)計更好的初始prompt和RL訓(xùn)練數(shù)據(jù)?
- GRPO的具體設(shè)置參數(shù)?
- 其他強化學(xué)習(xí)算法(如PPO、Reinforce)是否更有效?
- 如何為物理、化學(xué)等領(lǐng)域設(shè)計精確的獎勵信號?
- MCTS在LLM上能否取得突破?
總而言之,DeepSeek-R1證明了基于規(guī)則的獎勵機制和簡單的強化學(xué)習(xí)算法能夠有效提升LLM的推理能力,為Reasoning LLM的研究提供了新的方向。然而,該方法仍有許多改進空間,未來的研究將進一步探索更有效的訓(xùn)練方法和更廣泛的應(yīng)用場景。
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,專注于生成式人工智能。