Qwen2.5-Coder

AI工具1年前 (2024)發(fā)布 AI工具集

Qwen2.5-Coder 是由阿里 Qwen 團隊推出的一款全新代碼生成模型系列，致力于推動開源代碼語言模型的發(fā)展。該產(chǎn)品在代碼生成、推理和修復等方面展現(xiàn)出色性能，涵蓋從 0.5B 到 32B 的六種不同規(guī)模的模型，旨在滿足各類開發(fā)者的多樣化需求。

Qwen2.5-Coder是什么

Qwen2.5-Coder 是阿里 Qwen 團隊推出的全面代碼生成模型系列，旨在推動開源代碼語言模型的發(fā)展。該系列在代碼生成、推理及修復等任務(wù)中表現(xiàn)優(yōu)異，涵蓋了多種規(guī)模的模型，包括 0.5B、1.5B、3B、7B、14B 和 32B，滿足不同開發(fā)者的需求。

其旗艦模型 Qwen2.5-Coder-32B-Instruct 在多個主流代碼生成基準測試中表現(xiàn)突出，與 GPT-4o 相當，展現(xiàn)出強大的代碼生成、修復及推理能力，支持超過 40 種編程語言，并在 McEval 和 MdEval 基準中取得了顯著成績。

Qwen2.5-Coder 強調(diào)人與模型的偏好對齊，經(jīng)過內(nèi)部評估基準 Code Arena 的評估，顯示出其在人類偏好上的優(yōu)勢。模型家族的參數(shù)配置和許可證信息也一一列出，其中 0.5B、1.5B、7B、14B 和 32B 模型采用 Apache 2.0 許可證，而 3B 模型則使用研究用途的許可證。

Qwen2.5-Coder

Qwen2.5-Coder的主要功能

代碼生成：根據(jù)輸入的編程提示，Qwen2.5-Coder 能夠生成相關(guān)的代碼片段，支持多種編程語言。
代碼推理：具備強大的代碼推理能力，能夠理解代碼邏輯并提供相關(guān)建議。
代碼修復：幫助開發(fā)者識別并修復代碼中的錯誤。
多語言支持：支持多達 92 種編程語言，包括流行的 Python、Java 和 C++ 以及其他小眾語言。
模型尺寸多樣性：提供從 0.5B 到 32B 的六種主流模型尺寸，滿足不同開發(fā)者的需求。
指令調(diào)優(yōu)：通過指令微調(diào)提升了多項任務(wù)的性能。
數(shù)學能力：在代碼和數(shù)學任務(wù)上表現(xiàn)優(yōu)異，將編程與數(shù)學能力相結(jié)合。

Qwen2.5-Coder的技術(shù)原理

自回歸語言模型：采用自回歸機制，根據(jù)已有文本序列預測下一個最可能的 token，使得文本生成與補全任務(wù)表現(xiàn)出色。
模型架構(gòu)：基于 Qwen2.5 架構(gòu)，使用 Transformer 模型變種，提供不同參數(shù)規(guī)模的選擇，如 1.5B、7B 和 32B，參數(shù)配置包括隱藏層大小、層數(shù)、查詢頭數(shù)量等。
預訓練數(shù)據(jù)處理：包括源代碼、文本-代碼混合、合成數(shù)據(jù)、數(shù)學數(shù)據(jù)和文本數(shù)據(jù)，經(jīng)過精心清洗和格式化，確保數(shù)據(jù)質(zhì)量，其中代碼占比 70%、文本 20% 和數(shù)學數(shù)據(jù) 10%。
訓練策略：
- 文件級預訓練：通過處理單個代碼文件的內(nèi)容，學習編程語言的基礎(chǔ)知識和結(jié)構(gòu)。
- 倉庫級預訓練：增強模型的長上下文處理能力，將上下文長度擴展到 32K tokens，并調(diào)整 Rotary Position Embedding（RoPE）的基礎(chǔ)頻率。
后訓練與指令調(diào)優(yōu)：
- 指令數(shù)據(jù)生成：通過構(gòu)建特定語言智能體和自適應(yīng)記憶系統(tǒng)等生成高質(zhì)量指令數(shù)據(jù)。
- 訓練策略：采用由粗到精的微調(diào)策略，先使用多樣化指令樣本進行微調(diào)，然后通過高質(zhì)量指令樣本進行監(jiān)督微調(diào)。
特殊 Token 引入：在訓練過程中引入特殊標記，幫助模型更好地理解代碼。
長上下文能力：通過優(yōu)化 RoPE 基頻和應(yīng)用 YaRN 機制，處理更長的上下文，有效支持代碼補全和代碼庫理解。
代碼生成能力：在多個代碼生成基準上取得最佳表現(xiàn)，具備與 GPT-4o 競爭的能力。