DeepSeek-R1 論文帶來的 LLM 全新思維
DeepSeek-R1的訓(xùn)練方法為LLM的訓(xùn)練帶來了新變革。
原標(biāo)題:DeepSeek-R1 論文帶來的 LLM 全新思維
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):5077字
DeepSeek-R1: 顛覆LLM訓(xùn)練的新思路
本文總結(jié)了知乎文章中關(guān)于DeepSeek-R1論文的解讀,該論文提出了一種利用強(qiáng)化學(xué)習(xí) (RL) 來訓(xùn)練大型語言模型 (LLM) 的新方法,顯著減少了對(duì)監(jiān)督微調(diào) (SFT) 的依賴,并實(shí)現(xiàn)了推理時(shí)間伸縮 (Inference Time Scaling)。
1. RL與推理時(shí)間伸縮的融合
DeepSeek-R1的核心創(chuàng)新在于將RL作為核心訓(xùn)練方法,而非簡單的補(bǔ)充。通過精心設(shè)計(jì)的獎(jiǎng)勵(lì)模型和訓(xùn)練流程,模型能夠自主學(xué)習(xí)長鏈推理和自我反思能力,這些能力并非通過人工標(biāo)注數(shù)據(jù)強(qiáng)行灌輸,而是在RL訓(xùn)練過程中自然涌現(xiàn)。這使得推理時(shí)間伸縮不再是的過程,而是RL訓(xùn)練的自然結(jié)果。模型根據(jù)問題的難度自動(dòng)調(diào)整推理深度和廣度,直接實(shí)現(xiàn)Inference Time Scaling,這暗示著達(dá)到“o1能力”可能比我們預(yù)想的更容易。
2. 簡單有效的規(guī)則獎(jiǎng)勵(lì)模型
DeepSeek-R1采用基于規(guī)則的獎(jiǎng)勵(lì)模型,而非復(fù)雜的神經(jīng)網(wǎng)絡(luò)。這種方法避免了神經(jīng)網(wǎng)絡(luò)獎(jiǎng)勵(lì)模型容易出現(xiàn)的“獎(jiǎng)勵(lì)作弊”問題,并且訓(xùn)練效率高、資源消耗低。規(guī)則的明確性和可解釋性也方便了調(diào)整和優(yōu)化評(píng)估標(biāo)準(zhǔn)。
3. SFT的巧妙運(yùn)用
DeepSeek-R1的訓(xùn)練分為兩個(gè)階段:第一階段先用少量高質(zhì)量數(shù)據(jù)進(jìn)行SFT,為模型建立基本的推理能力;然后進(jìn)行第一輪reasoning-focused RL,提升模型在特定任務(wù)上的推理能力。第二階段則利用第一階段訓(xùn)練好的模型生成新的SFT數(shù)據(jù),解決模型輸出的可讀性和語言融合問題,并進(jìn)一步豐富推理模式,再進(jìn)行第二輪RL,提升模型的幫助性和無害性。SFT在這里扮演“基礎(chǔ)訓(xùn)練”的角色,為后續(xù)RL訓(xùn)練奠定基礎(chǔ),而非每個(gè)RL步驟都需重復(fù)進(jìn)行。
4. 動(dòng)態(tài)生成和混合數(shù)據(jù)
在RL訓(xùn)練接近收斂時(shí),DeepSeek-R1利用當(dāng)前模型生成高質(zhì)量數(shù)據(jù),并與原始監(jiān)督數(shù)據(jù)混合,增加數(shù)據(jù)多樣性,讓模型學(xué)習(xí)自身生成的高質(zhì)量例子。
5. 對(duì)LLM訓(xùn)練的新認(rèn)識(shí)
DeepSeek-R1的成果顛覆了以往對(duì)LLM訓(xùn)練的認(rèn)知:
- RL與推理能力的關(guān)系:合適的RL設(shè)置能夠讓模型自主學(xué)習(xí)推理和反思,減少對(duì)大量人工標(biāo)注數(shù)據(jù)的依賴。
- 數(shù)據(jù)質(zhì)量與數(shù)據(jù)動(dòng)態(tài)性:數(shù)據(jù)質(zhì)量和動(dòng)態(tài)性可能比數(shù)據(jù)量更重要。動(dòng)態(tài)生成和篩選高質(zhì)量數(shù)據(jù)能以較少的數(shù)據(jù)量取得良好效果。
- 模型的自我進(jìn)化能力:模型在訓(xùn)練過程中能夠自主學(xué)習(xí)更長的推理過程和自我反思能力,展現(xiàn)出巨大的潛力。
6. 規(guī)則獎(jiǎng)勵(lì)模型的具體設(shè)計(jì)
規(guī)則獎(jiǎng)勵(lì)模型通過一套評(píng)分標(biāo)準(zhǔn)對(duì)模型輸出進(jìn)行評(píng)估,包括準(zhǔn)確性、格式規(guī)范性、推理過程合理性等方面。通過優(yōu)化不同規(guī)則的權(quán)重,可以更好地平衡不同規(guī)則之間的獎(jiǎng)勵(lì),提高模型性能。具體的規(guī)則包括準(zhǔn)確性獎(jiǎng)勵(lì)(例如,在數(shù)學(xué)問題中驗(yàn)證答案正確性)和格式獎(jiǎng)勵(lì)(例如,規(guī)范模型輸出的格式,例如使用<think>和<answer>標(biāo)簽)。
7. 總結(jié)
DeepSeek-R1的訓(xùn)練方法為LLM訓(xùn)練帶來了新的變革,通過巧妙地結(jié)合RL、規(guī)則獎(jiǎng)勵(lì)模型和動(dòng)態(tài)數(shù)據(jù)生成,顯著提高了訓(xùn)練效率,降低了對(duì)資源的依賴,為LLM訓(xùn)練提供了新的思路和方法,并可能大幅降低訓(xùn)練成本,讓更多人參與模型訓(xùn)練。
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下賬號(hào),專注于生成式人工智能,主要分享技術(shù)文章、論文成果與產(chǎn)品信息。