該論文已被軟件工程領域國際頂級會議 ICSE 2025 收錄。
原標題:如何訓練最強代碼大模型?北大aiXcoder-7B貢獻前沿實踐
文章來源:機器之心
內容字數:8304字
北京大學aiXcoder團隊:基于軟件工程方法的代碼大模型aiXcoder-7B
本文介紹了北京大學aiXcoder團隊研發的代碼大模型aiXcoder-7B,該模型在ICSE 2025會議上被收錄,并已開源。該團隊致力于融合深度學習與軟件工程,以提升代碼大模型在實際開發場景中的表現。
1. 代碼大模型訓練的挑戰
雖然開源數據集和訓練框架降低了訓練代碼大模型的技術門檻,但現有模型往往將代碼簡單地視為自然語言文本,忽略了代碼的結構性和上下文關系,導致實際應用效果不佳。aiXcoder團隊認為,訓練模型的初衷應始終從實際開發場景出發。
2. aiXcoder-7B的創新之處
aiXcoder-7B的主要創新在于將傳統軟件工程方法引入大規模預訓練中,以生成更符合真實場景的代碼。具體而言,它從以下幾個方面進行了優化:
- 數據預處理: 利用語法分析和靜態分析工具,去除語法錯誤、Bug和安全漏洞,保證數據質量。
- 結構化FIM (SFIM): 基于抽象語法樹(AST)結構構建訓練任務,讓模型學習代碼的語法結構,避免生成不合法的代碼片段。
- 多文件排序: 以項目為單位組織數據,并根據文件內容相似性和依賴關系對文件排序,提升模型對項目內多文件關系的建模能力。
3. aiXcoder-7B的效果
實驗結果表明,aiXcoder-7B在代碼補全任務上取得了顯著效果。與DeepSeekcoder-6.7B相比,aiXcoder-7B在多種補全位置上表現更好,生成的代碼更簡潔,且在跨文件上下文理解方面也更具優勢。
4. 未來改進方向
aiXcoder團隊指出,在真實軟件開發場景中,代碼大模型還需要學習更多能力,特別是處理復雜的上下文信息。他們正在進行對齊訓練,以提升模型在實際應用中的代碼補全準確率。
5. 總結
aiXcoder-7B代表了代碼大模型研究的一個重要嘗試,它通過融合軟件工程方法,顯著提升了代碼大模型的性能和實用性。該團隊的努力為推動軟件開發自動化邁出了關鍵一步。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...