DeepCoder-14B-Preview – Agentica 聯(lián)合 Together AI 開(kāi)源的代碼生成模型
DeepCoder-14B-Preview 是由 Agentica 和 Together AI 聯(lián)合開(kāi)發(fā)的一款開(kāi)源大型代碼生成模型,基于 Deepseek-R1-Distilled-Qwen-14B 進(jìn)行了微調(diào)。該模型采用分布式強(qiáng)化學(xué)習(xí)(RL)進(jìn)行訓(xùn)練,在代碼生成任務(wù)上表現(xiàn)優(yōu)異,特別是在 LiveCodeBench 上達(dá)到了 60.6% 的準(zhǔn)確率,媲美 OpenAI 的 o3-mini。同時(shí),DeepCoder-14B-Preview 還開(kāi)源了訓(xùn)練數(shù)據(jù)集、代碼、訓(xùn)練日志及系統(tǒng)優(yōu)化,推動(dòng)了強(qiáng)化學(xué)習(xí)在大型語(yǔ)言模型中的應(yīng)用,降低了相關(guān)技術(shù)的入門(mén)門(mén)檻,促進(jìn)了社區(qū)的發(fā)展。
DeepCoder-14B-Preview是什么
DeepCoder-14B-Preview 是一款由 Agentica 和 Together AI 聯(lián)合開(kāi)源的先進(jìn)代碼生成模型,基于 Deepseek-R1-Distilled-Qwen-14B 進(jìn)行優(yōu)化與調(diào)整。該模型利用分布式強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練,展現(xiàn)出卓越的代碼生成能力,特別是在 LiveCodeBench 測(cè)試中取得 60.6% 的準(zhǔn)確率,與 OpenAI 的 o3-mini 具有相似的表現(xiàn)。此外,模型還提供了豐富的開(kāi)源資源,包括訓(xùn)練數(shù)據(jù)集、代碼、訓(xùn)練日志和系統(tǒng)優(yōu)化方案,旨在推動(dòng)強(qiáng)化學(xué)習(xí)技術(shù)在大型語(yǔ)言模型中的應(yīng)用,降低相關(guān)技術(shù)的學(xué)習(xí)門(mén)檻,促進(jìn)開(kāi)發(fā)者社區(qū)的良性發(fā)展。
DeepCoder-14B-Preview的主要功能
- 優(yōu)質(zhì)代碼生成:能夠生成高質(zhì)量、可執(zhí)行的代碼,適用于多種編程語(yǔ)言和不同的應(yīng)用場(chǎng)景。
- 編程問(wèn)題解決:能夠處理復(fù)雜的編程挑戰(zhàn),包括算法設(shè)計(jì)和數(shù)據(jù)結(jié)構(gòu)優(yōu)化等。
- 代碼補(bǔ)全與優(yōu)化:提供代碼補(bǔ)全功能,幫助開(kāi)發(fā)者迅速編寫(xiě)代碼并優(yōu)化現(xiàn)有代碼,提升工作效率。
- 自動(dòng)化單元測(cè)試生成:能夠自動(dòng)生成單元測(cè)試代碼,確保生成代碼的準(zhǔn)確性和可靠性。
- 調(diào)試輔助功能:協(xié)助開(kāi)發(fā)者定位和修復(fù)代碼中的錯(cuò)誤,從而提高開(kāi)發(fā)效率。
- 跨平臺(tái)支持:兼容多種開(kāi)發(fā)環(huán)境和平臺(tái),具有廣泛的應(yīng)用適用性。
DeepCoder-14B-Preview的技術(shù)原理
- 基礎(chǔ)模型:基于經(jīng)過(guò)蒸餾優(yōu)化的 Deepseek-R1-Distilled-Qwen-14B,擁有強(qiáng)大的語(yǔ)言理解與生成能力,參數(shù)量達(dá)到 140 億。
- 強(qiáng)化學(xué)習(xí)微調(diào):通過(guò)分布式強(qiáng)化學(xué)習(xí)對(duì)基礎(chǔ)模型進(jìn)行微調(diào),利用獎(jiǎng)勵(lì)機(jī)制引導(dǎo)模型生成更高質(zhì)量的代碼,確保代碼的準(zhǔn)確性與效率。
- 高質(zhì)量訓(xùn)練數(shù)據(jù)集:使用經(jīng)過(guò)嚴(yán)格篩選的 24K 個(gè)可驗(yàn)證編程問(wèn)題進(jìn)行訓(xùn)練,數(shù)據(jù)來(lái)源包括 TACO Verified、PrimeIntellect 的 SYNTHETIC-1 數(shù)據(jù)集以及 LiveCodeBench 提交的問(wèn)題。
- 獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì):采用稀疏結(jié)果獎(jiǎng)勵(lì)模型(ORM),只有在生成的代碼通過(guò)所有采樣單元測(cè)試時(shí)才給予獎(jiǎng)勵(lì),以避免模型僅憑記憶測(cè)試用例獲取獎(jiǎng)勵(lì)。
- 上下文擴(kuò)展技術(shù):通過(guò)迭代上下文擴(kuò)展技術(shù),從較短的上下文長(zhǎng)度開(kāi)始學(xué)習(xí),逐步適應(yīng)更長(zhǎng)的上下文,最終在 64K 上下文中達(dá)到 60.6% 的準(zhǔn)確率。
- 系統(tǒng)優(yōu)化:引入 verl-pipeline 以加速訓(xùn)練過(guò)程,減少訓(xùn)練時(shí)間,提高整體訓(xùn)練效率。
DeepCoder-14B-Preview的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):https://pretty-radio-b75.notion.site/DeepCoder-A-Fully-Open-Source-14B-Coder
- HuggingFace模型庫(kù):https://huggingface.co/agentica-org/DeepCoder-14B-Preview
DeepCoder-14B-Preview的應(yīng)用場(chǎng)景
- 代碼生成與自動(dòng)化編程:快速生成高質(zhì)量代碼,減少手動(dòng)編碼的時(shí)間與工作量,提升開(kāi)發(fā)效率。適合各種編程語(yǔ)言和框架,幫助開(kāi)發(fā)者快速啟動(dòng)項(xiàng)目。
- 算法競(jìng)賽與問(wèn)題解決:在算法競(jìng)賽中(如 Codeforces),幫助參賽者迅速理解問(wèn)題并生成高效解決方案,提升競(jìng)賽表現(xiàn)。
- 代碼優(yōu)化與重構(gòu):優(yōu)化和重構(gòu)現(xiàn)有代碼,提高代碼的可讀性、性能與可維護(hù)性,幫助開(kāi)發(fā)者識(shí)別和修復(fù)潛在問(wèn)題。
- 教育與學(xué)習(xí)輔助:作為編程教育工具,幫助學(xué)生理解和實(shí)踐編程概念,提供代碼示例與解決方案,輔助學(xué)習(xí)編程語(yǔ)言與算法。
- 軟件開(kāi)發(fā)與測(cè)試:生成單元測(cè)試代碼以確保軟件質(zhì)量;輔助開(kāi)發(fā)過(guò)程中的代碼調(diào)試,幫助開(kāi)發(fā)者快速定位與解決問(wèn)題,提升整體開(kāi)發(fā)效率。
常見(jiàn)問(wèn)題
- DeepCoder-14B-Preview支持哪些編程語(yǔ)言?:支持多種主流編程語(yǔ)言,涵蓋常見(jiàn)的開(kāi)發(fā)需求。
- 如何獲取DeepCoder-14B-Preview?:可以通過(guò)官方網(wǎng)站和HuggingFace模型庫(kù)下載和使用該模型。
- DeepCoder-14B-Preview的使用成本是怎樣的?:該模型為開(kāi)源項(xiàng)目,用戶可以免費(fèi)使用,具體使用成本取決于計(jì)算資源。
- 如何參與DeepCoder-14B-Preview的開(kāi)發(fā)和貢獻(xiàn)?:用戶可以通過(guò)官方網(wǎng)站獲取相關(guān)信息,參與社區(qū)討論和貢獻(xiàn)代碼。