DeepCoder-14B-Preview

DeepCoder-14B-Preview – Agentica 聯合 Together AI 開源的代碼生成模型

DeepCoder-14B-Preview 是由 Agentica 和 Together AI 聯合開發的一款開源大型代碼生成模型，基于 Deepseek-R1-Distilled-Qwen-14B 進行了微調。該模型采用分布式強化學習（RL）進行訓練，在代碼生成任務上表現優異，特別是在 LiveCodeBench 上達到了 60.6% 的準確率，媲美 OpenAI 的 o3-mini。同時，DeepCoder-14B-Preview 還開源了訓練數據集、代碼、訓練日志及系統優化，推動了強化學習在大型語言模型中的應用，降低了相關技術的入門門檻，促進了社區的發展。

DeepCoder-14B-Preview是什么

DeepCoder-14B-Preview 是一款由 Agentica 和 Together AI 聯合開源的先進代碼生成模型，基于 Deepseek-R1-Distilled-Qwen-14B 進行優化與調整。該模型利用分布式強化學習（RL）訓練，展現出卓越的代碼生成能力，特別是在 LiveCodeBench 測試中取得 60.6% 的準確率，與 OpenAI 的 o3-mini 具有相似的表現。此外，模型還提供了豐富的開源資源，包括訓練數據集、代碼、訓練日志和系統優化方案，旨在推動強化學習技術在大型語言模型中的應用，降低相關技術的學習門檻，促進開發者社區的良性發展。

DeepCoder-14B-Preview的主要功能

優質代碼生成：能夠生成高質量、可執行的代碼，適用于多種編程語言和不同的應用場景。
編程問題解決：能夠處理復雜的編程挑戰，包括算法設計和數據結構優化等。
代碼補全與優化：提供代碼補全功能，幫助開發者迅速編寫代碼并優化現有代碼，提升工作效率。
自動化單元測試生成：能夠自動生成單元測試代碼，確保生成代碼的準確性和可靠性。
調試輔助功能：協助開發者定位和修復代碼中的錯誤，從而提高開發效率。
跨平臺支持：兼容多種開發環境和平臺，具有廣泛的應用適用性。

DeepCoder-14B-Preview的技術原理

基礎模型：基于經過蒸餾優化的 Deepseek-R1-Distilled-Qwen-14B，擁有強大的語言理解與生成能力，參數量達到 140 億。
強化學習微調：通過分布式強化學習對基礎模型進行微調，利用獎勵機制引導模型生成更高質量的代碼，確保代碼的準確性與效率。
高質量訓練數據集：使用經過嚴格篩選的 24K 個可驗證編程問題進行訓練，數據來源包括 TACO Verified、PrimeIntellect 的 SYNTHETIC-1 數據集以及 LiveCodeBench 提交的問題。
獎勵函數設計：采用稀疏結果獎勵模型（ORM），只有在生成的代碼通過所有采樣單元測試時才給予獎勵，以避免模型僅憑記憶測試用例獲取獎勵。
上下文擴展技術：通過迭代上下文擴展技術，從較短的上下文長度開始學習，逐步適應更長的上下文，最終在 64K 上下文中達到 60.6% 的準確率。
系統優化：引入 verl-pipeline 以加速訓練過程，減少訓練時間，提高整體訓練效率。