DeepSeek V3+R1滿血微調(diào)工具上線!一鍵啟動,硬件要求降10倍
最佳后訓(xùn)練工具來了。
原標(biāo)題:DeepSeek V3+R1滿血微調(diào)工具上線!一鍵啟動,硬件要求降10倍
文章來源:機器之心
內(nèi)容字數(shù):4549字
基于Colossal-AI低成本打造高質(zhì)量私有DeepSeek模型
DeepSeek V3/R1模型的爆火引發(fā)了低價甚至免費的內(nèi)卷競爭。本文介紹如何利用Colossal-AI開源大模型后訓(xùn)練工具箱,基于DeepSeek模型,結(jié)合專業(yè)領(lǐng)域數(shù)據(jù),低成本高效地構(gòu)建高質(zhì)量私有模型,提升業(yè)務(wù)競爭力。
1. 低成本微調(diào)DeepSeek V3/R1 671B參數(shù)模型
Colossal-AI 提供了低成本監(jiān)督微調(diào) (SFT) DeepSeek V3/R1 671B 參數(shù)模型的完整解決方案。其核心在于利用LoRA技術(shù)優(yōu)化硬件資源消耗,將最低硬件要求降低近10倍。
數(shù)據(jù)集準(zhǔn)備: 使用JSONL格式的數(shù)據(jù)集,每行是一個對話列表,兼容HuggingFace chat template,支持自定義system prompt。
模型權(quán)重準(zhǔn)備: 使用BF16權(quán)重進行微調(diào),可使用提供的腳本將FP8權(quán)重轉(zhuǎn)換為BF16,兼容Nvidia GPU和華為昇騰NPU。
一鍵啟動腳本: 使用Colossal-AI提供的一鍵啟動腳本
lora_finetune.py
,該腳本支持HuggingFace PEFT,并可通過參數(shù)配置進行靈活調(diào)整,例如學(xué)習(xí)率、批量大小、LoRA秩等。 腳本支持Tensorboard監(jiān)控訓(xùn)練過程。LoRA優(yōu)化: 通過LoRA技術(shù),極大降低了硬件資源消耗,例如可以使用32個Ascend 910B NPU 64GB或24個H100/H800 GPU進行微調(diào)。
--zero_cpu_offload
選項可進一步降低硬件要求,但會犧牲部分訓(xùn)練速度。
2. 基于強化學(xué)習(xí)微調(diào)蒸餾版DeepSeek
對于預(yù)算有限的用戶,Colossal-AI 提供了基于強化學(xué)習(xí)微調(diào)蒸餾版DeepSeek的方案。該方案以Qwen2.5-3B-Base模型為例,驗證了GRPO算法和可驗證獎勵機制。
獎勵函數(shù)設(shè)計: 獎勵函數(shù)的設(shè)計靈活可配置,用戶可根據(jù)自身需求自定義。
一鍵啟動腳本: 提供一鍵啟動腳本
train_grpo.sh
,方便用戶快速啟動訓(xùn)練。實驗結(jié)果: 實驗結(jié)果表明,即使是3B參數(shù)的小模型,平均獎勵和模型回復(fù)長度也能隨著訓(xùn)練逐步增長,模型能夠進行自我糾正。
3. Colossal-AI:最佳后訓(xùn)練工具箱
Colossal-AI致力于成為開發(fā)者開箱即用的最佳后訓(xùn)練工具,幫助用戶基于開源模型,低成本快速構(gòu)建私有模型,從而提升業(yè)務(wù)競爭力與價值。
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺