最佳后訓練工具來了。
原標題:DeepSeek V3+R1滿血微調工具上線!一鍵啟動,硬件要求降10倍
文章來源:機器之心
內容字數:4549字
基于Colossal-AI低成本打造高質量私有DeepSeek模型
DeepSeek V3/R1模型的爆火引發了低價甚至免費的內卷競爭。本文介紹如何利用Colossal-AI開源大模型后訓練工具箱,基于DeepSeek模型,結合專業領域數據,低成本高效地構建高質量私有模型,提升業務競爭力。
1. 低成本微調DeepSeek V3/R1 671B參數模型
Colossal-AI 提供了低成本監督微調 (SFT) DeepSeek V3/R1 671B 參數模型的完整解決方案。其核心在于利用LoRA技術優化硬件資源消耗,將最低硬件要求降低近10倍。
數據集準備: 使用JSONL格式的數據集,每行是一個對話列表,兼容HuggingFace chat template,支持自定義system prompt。
模型權重準備: 使用BF16權重進行微調,可使用提供的腳本將FP8權重轉換為BF16,兼容Nvidia GPU和華為昇騰NPU。
一鍵啟動腳本: 使用Colossal-AI提供的一鍵啟動腳本
lora_finetune.py
,該腳本支持HuggingFace PEFT,并可通過參數配置進行靈活調整,例如學習率、批量大小、LoRA秩等。 腳本支持Tensorboard監控訓練過程。LoRA優化: 通過LoRA技術,極大降低了硬件資源消耗,例如可以使用32個Ascend 910B NPU 64GB或24個H100/H800 GPU進行微調。
--zero_cpu_offload
選項可進一步降低硬件要求,但會犧牲部分訓練速度。
2. 基于強化學習微調蒸餾版DeepSeek
對于預算有限的用戶,Colossal-AI 提供了基于強化學習微調蒸餾版DeepSeek的方案。該方案以Qwen2.5-3B-Base模型為例,驗證了GRPO算法和可驗證獎勵機制。
獎勵函數設計: 獎勵函數的設計靈活可配置,用戶可根據自身需求自定義。
一鍵啟動腳本: 提供一鍵啟動腳本
train_grpo.sh
,方便用戶快速啟動訓練。實驗結果: 實驗結果表明,即使是3B參數的小模型,平均獎勵和模型回復長度也能隨著訓練逐步增長,模型能夠進行自我糾正。
3. Colossal-AI:最佳后訓練工具箱
Colossal-AI致力于成為開發者開箱即用的最佳后訓練工具,幫助用戶基于開源模型,低成本快速構建私有模型,從而提升業務競爭力與價值。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺