DeepSeek V3+R1滿血微調(diào)工具上線!一鍵啟動(dòng),硬件要求降10倍
最佳后訓(xùn)練工具來了。
原標(biāo)題:DeepSeek V3+R1滿血微調(diào)工具上線!一鍵啟動(dòng),硬件要求降10倍
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):4549字
基于Colossal-AI低成本打造高質(zhì)量私有DeepSeek模型
DeepSeek V3/R1模型的爆火引發(fā)了低價(jià)甚至免費(fèi)的內(nèi)卷競(jìng)爭(zhēng)。本文介紹如何利用Colossal-AI開源大模型后訓(xùn)練工具箱,基于DeepSeek模型,結(jié)合專業(yè)領(lǐng)域數(shù)據(jù),低成本高效地構(gòu)建高質(zhì)量私有模型,提升業(yè)務(wù)競(jìng)爭(zhēng)力。
1. 低成本微調(diào)DeepSeek V3/R1 671B參數(shù)模型
Colossal-AI 提供了低成本監(jiān)督微調(diào) (SFT) DeepSeek V3/R1 671B 參數(shù)模型的完整解決方案。其核心在于利用LoRA技術(shù)優(yōu)化硬件資源消耗,將最低硬件要求降低近10倍。
數(shù)據(jù)集準(zhǔn)備: 使用JSONL格式的數(shù)據(jù)集,每行是一個(gè)對(duì)話列表,兼容HuggingFace chat template,支持自定義system prompt。
模型權(quán)重準(zhǔn)備: 使用BF16權(quán)重進(jìn)行微調(diào),可使用提供的腳本將FP8權(quán)重轉(zhuǎn)換為BF16,兼容Nvidia GPU和華為昇騰NPU。
一鍵啟動(dòng)腳本: 使用Colossal-AI提供的一鍵啟動(dòng)腳本
lora_finetune.py
,該腳本支持HuggingFace PEFT,并可通過參數(shù)配置進(jìn)行靈活調(diào)整,例如學(xué)習(xí)率、批量大小、LoRA秩等。 腳本支持Tensorboard監(jiān)控訓(xùn)練過程。LoRA優(yōu)化: 通過LoRA技術(shù),極大降低了硬件資源消耗,例如可以使用32個(gè)Ascend 910B NPU 64GB或24個(gè)H100/H800 GPU進(jìn)行微調(diào)。
--zero_cpu_offload
選項(xiàng)可進(jìn)一步降低硬件要求,但會(huì)犧牲部分訓(xùn)練速度。
2. 基于強(qiáng)化學(xué)習(xí)微調(diào)蒸餾版DeepSeek
對(duì)于預(yù)算有限的用戶,Colossal-AI 提供了基于強(qiáng)化學(xué)習(xí)微調(diào)蒸餾版DeepSeek的方案。該方案以Qwen2.5-3B-Base模型為例,驗(yàn)證了GRPO算法和可驗(yàn)證獎(jiǎng)勵(lì)機(jī)制。
獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì): 獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)靈活可配置,用戶可根據(jù)自身需求自定義。
一鍵啟動(dòng)腳本: 提供一鍵啟動(dòng)腳本
train_grpo.sh
,方便用戶快速啟動(dòng)訓(xùn)練。實(shí)驗(yàn)結(jié)果: 實(shí)驗(yàn)結(jié)果表明,即使是3B參數(shù)的小模型,平均獎(jiǎng)勵(lì)和模型回復(fù)長(zhǎng)度也能隨著訓(xùn)練逐步增長(zhǎng),模型能夠進(jìn)行自我糾正。
3. Colossal-AI:最佳后訓(xùn)練工具箱
Colossal-AI致力于成為開發(fā)者開箱即用的最佳后訓(xùn)練工具,幫助用戶基于開源模型,低成本快速構(gòu)建私有模型,從而提升業(yè)務(wù)競(jìng)爭(zhēng)力與價(jià)值。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)