Long-Cot該如何做之RedStar&Zero-RL的啟示

本文主要介紹我們在弱teacher上蒸餾的經(jīng)驗(yàn)和在zero-rl的一些新的結(jié)果和思考。

原標(biāo)題：Long-Cot該如何做之RedStar&Zero-RL的啟示
文章來源：智猩猩GenAI
內(nèi)容字?jǐn)?shù)：10361字

智猩猩AI新青年講座：深度推理模型專題

本文總結(jié)了知乎文章“智猩猩AI新青年講座最新增設(shè)DeepSeek R1與推理模型專題”的主要內(nèi)容，該文章探討了近期深度推理模型的突破性進(jìn)展，特別是DeepSeek R1系列模型的優(yōu)秀表現(xiàn)以及Zero-RL范式的革新。

1. DeepSeek R1及近期深度推理模型進(jìn)展

近期，多個(gè)深度推理模型井噴式發(fā)布，包括DeepSeek-R1、Kimi1.5和Baichuan-M1等。DeepSeek R1系列通過蒸餾強(qiáng)Teacher模型到Qwen25全家桶，顯著提升了推理能力，且訓(xùn)練成本僅需4500美元，1.5B的小模型推理能力超越了o1-preview。Zero系列則實(shí)現(xiàn)了范式轉(zhuǎn)移，省去了SFT階段，降低了人工數(shù)據(jù)標(biāo)注成本。DeepSeek R1和Kimi1.5則采用傳統(tǒng)的pretrain→SFT→RL方法，在成本和效果上取得了平衡。值得注意的是，R1模型不僅理科能力強(qiáng)，創(chuàng)作能力也十分出色，引發(fā)了關(guān)于推理能力是否提升通用能力的關(guān)鍵因素的討論。

2. RedStar項(xiàng)目及深度推理蒸餾經(jīng)驗(yàn)

RedStar項(xiàng)目探討了深度推理數(shù)據(jù)規(guī)模、模型規(guī)模、難度等級以及多模態(tài)對推理能力的影響。研究表明，更高難度的數(shù)據(jù)能更顯著提升推理能力；模型規(guī)模越大越好；盲目增加數(shù)據(jù)量提升有限；中等尺寸的RL-scaling能進(jìn)一步提升效果；僅使用code數(shù)據(jù)訓(xùn)練也能提升math能力；深度推理模型在通用評測上的表現(xiàn)相對較好，但會(huì)影響指令遵循能力；多模態(tài)深度推理需要考慮視覺感知層面的深度推理。

3. DeepSeek-Zero帶來的啟發(fā)

DeepSeek-Zero的成功訓(xùn)練帶來了新的想象空間。文章探討了如何從policy-gradient+kl-constraint的角度出發(fā)，得到最優(yōu)分布，并通過MCMC采樣或RL方法獲取最優(yōu)分布的樣本。與傳統(tǒng)的pretrain→SFT→RL流程相比，Zero-RL省去了SFT階段，能夠更好地優(yōu)化base-model，提升RL-scale的效果和收斂效率。文章也提出了Zero-RL需要解決的關(guān)鍵問題，例如什么樣的基座模型適合Zero-RL，如何選擇RL算法等。

4. RL-Scaling的未來方向

文章展望了RL-scaling的三個(gè)階段：粗獷式RL、精細(xì)式RL和協(xié)同式RL。協(xié)同式RL將涉及多模態(tài)協(xié)同優(yōu)化、混合范式協(xié)同訓(xùn)練和系統(tǒng)級協(xié)同部署等技術(shù)。文章還強(qiáng)調(diào)了構(gòu)建適用于LLM的Gym環(huán)境、難度分級的prompt以及已有數(shù)據(jù)的可驗(yàn)證任務(wù)生成的重要性。

5. 總結(jié)

本文總結(jié)了深度推理模型的最新進(jìn)展，重點(diǎn)介紹了DeepSeek R1和Zero-RL的突破性成果，并對未來深度推理模型的發(fā)展方向進(jìn)行了展望。文章認(rèn)為，推理能力的提升可能是提升通用能力的關(guān)鍵，而更強(qiáng)的Teacher模型能夠蒸餾出更強(qiáng)的Student模型。同時(shí)，Zero-RL以及基于MCMC采樣的方法為優(yōu)化base-model和提升RL-scale提供了新的思路。

聯(lián)系作者

文章來源：智猩猩GenAI
作者微信：
作者簡介：智猩猩旗下賬號(hào)，專注于生成式人工智能，主要分享技術(shù)文章、論文成果與產(chǎn)品信息。

閱讀原文

# AIGC動(dòng)態(tài)# Long-Cot # RedStar # Zero-RL # 強(qiáng)化學(xué)習(xí)算法 # 長尾分布

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

Long-Cot該如何做之RedStar&Zero-RL的啟示

本文主要介紹我們在弱teacher上蒸餾的經(jīng)驗(yàn)和在zero-rl的一些新的結(jié)果和思考。

智猩猩AI新青年講座：深度推理模型專題

1. DeepSeek R1及近期深度推理模型進(jìn)展

2. RedStar項(xiàng)目及深度推理蒸餾經(jīng)驗(yàn)

3. DeepSeek-Zero帶來的啟發(fā)

4. RL-Scaling的未來方向

5. 總結(jié)

聯(lián)系作者

下周聊：火山引擎 xDeepSeek-R1，企業(yè)落地 AI，怎么做更高效？

蘋果計(jì)劃今年 5 月前推出國行版 AI/TikTok 重新上架美區(qū)應(yīng)用商店/《哪吒 2》發(fā)行商市值破千億元

相關(guān)文章

暫無評論

ChatGPT

畢業(yè)論文生成器

AIGC熱點(diǎn)