Long-Cot該如何做之RedStar&Zero-RL的啟示
本文主要介紹我們在弱teacher上蒸餾的經(jīng)驗(yàn)和在zero-rl的一些新的結(jié)果和思考。
原標(biāo)題:Long-Cot該如何做之RedStar&Zero-RL的啟示
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):10361字
智猩猩AI新青年講座:深度推理模型專題
本文總結(jié)了知乎文章“智猩猩AI新青年講座最新增設(shè)DeepSeek R1與推理模型專題”的主要內(nèi)容,該文章探討了近期深度推理模型的突破性進(jìn)展,特別是DeepSeek R1系列模型的優(yōu)秀表現(xiàn)以及Zero-RL范式的革新。
1. DeepSeek R1及近期深度推理模型進(jìn)展
近期,多個(gè)深度推理模型井噴式發(fā)布,包括DeepSeek-R1、Kimi1.5和Baichuan-M1等。DeepSeek R1系列通過蒸餾強(qiáng)Teacher模型到Qwen25全家桶,顯著提升了推理能力,且訓(xùn)練成本僅需4500美元,1.5B的小模型推理能力超越了o1-preview。Zero系列則實(shí)現(xiàn)了范式轉(zhuǎn)移,省去了SFT階段,降低了人工數(shù)據(jù)標(biāo)注成本。DeepSeek R1和Kimi1.5則采用傳統(tǒng)的pretrain→SFT→RL方法,在成本和效果上取得了平衡。值得注意的是,R1模型不僅理科能力強(qiáng),創(chuàng)作能力也十分出色,引發(fā)了關(guān)于推理能力是否提升通用能力的關(guān)鍵因素的討論。
2. RedStar項(xiàng)目及深度推理蒸餾經(jīng)驗(yàn)
RedStar項(xiàng)目探討了深度推理數(shù)據(jù)規(guī)模、模型規(guī)模、難度等級以及多模態(tài)對推理能力的影響。研究表明,更高難度的數(shù)據(jù)能更顯著提升推理能力;模型規(guī)模越大越好;盲目增加數(shù)據(jù)量提升有限;中等尺寸的RL-scaling能進(jìn)一步提升效果;僅使用code數(shù)據(jù)訓(xùn)練也能提升math能力;深度推理模型在通用評測上的表現(xiàn)相對較好,但會(huì)影響指令遵循能力;多模態(tài)深度推理需要考慮視覺感知層面的深度推理。
3. DeepSeek-Zero帶來的啟發(fā)
DeepSeek-Zero的成功訓(xùn)練帶來了新的想象空間。文章探討了如何從policy-gradient+kl-constraint的角度出發(fā),得到最優(yōu)分布,并通過MCMC采樣或RL方法獲取最優(yōu)分布的樣本。與傳統(tǒng)的pretrain→SFT→RL流程相比,Zero-RL省去了SFT階段,能夠更好地優(yōu)化base-model,提升RL-scale的效果和收斂效率。文章也提出了Zero-RL需要解決的關(guān)鍵問題,例如什么樣的基座模型適合Zero-RL,如何選擇RL算法等。
4. RL-Scaling的未來方向
文章展望了RL-scaling的三個(gè)階段:粗獷式RL、精細(xì)式RL和協(xié)同式RL。協(xié)同式RL將涉及多模態(tài)協(xié)同優(yōu)化、混合范式協(xié)同訓(xùn)練和系統(tǒng)級協(xié)同部署等技術(shù)。文章還強(qiáng)調(diào)了構(gòu)建適用于LLM的Gym環(huán)境、難度分級的prompt以及已有數(shù)據(jù)的可驗(yàn)證任務(wù)生成的重要性。
5. 總結(jié)
本文總結(jié)了深度推理模型的最新進(jìn)展,重點(diǎn)介紹了DeepSeek R1和Zero-RL的突破性成果,并對未來深度推理模型的發(fā)展方向進(jìn)行了展望。文章認(rèn)為,推理能力的提升可能是提升通用能力的關(guān)鍵,而更強(qiáng)的Teacher模型能夠蒸餾出更強(qiáng)的Student模型。 同時(shí),Zero-RL以及基于MCMC采樣的方法為優(yōu)化base-model和提升RL-scale提供了新的思路。
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下賬號(hào),專注于生成式人工智能,主要分享技術(shù)文章、論文成果與產(chǎn)品信息。
相關(guān)文章
