Multi-SWE-bench

Multi-SWE-bench – 字節豆包開源的多語言代碼修復基準

Multi-SWE-bench

Multi-SWE-bench是字節跳動豆包大模型團隊推出的首個多語言代碼修復基準，旨在為全棧工程提供全面的評測標準。該基準在SWE-bench的基礎上，首次擴展至包括Python以外的七種主流編程語言，如Java、TypeScript、JavaScript、Go、Rust、C和C++。數據集中收錄了1632個真實的修復任務，均選自GitHub issue，經過嚴格篩選和人工驗證，確保樣本具備明確的問題描述、正確的修復補丁以及可復現的測試環境。

Multi-SWE-bench是什么

Multi-SWE-bench是字節跳動豆包大模型團隊開源的多語言代碼修復基準，首次覆蓋了除Python外的七種流行編程語言，包括Java、TypeScript、JavaScript、Go、Rust、C和C++。該基準數據集包含1632個真實的修復任務，這些任務均來源于GitHub issue，經過精心挑選與人工審核，確保每個樣本都有清晰的問題描述、有效的修復補丁和可復現的運行環境。同時，數據集引入了任務難度分級機制，涵蓋從簡單到復雜的各種開發挑戰。

主要功能

多語言代碼修復評估：Multi-SWE-bench作為業內首個多語言代碼修復基準，首次涵蓋了七種主流編程語言，全面評估大模型在不同編程環境下的自動修復能力。
任務難度分級：該數據用了任務難度分級機制，將問題分為簡單、中等和困難三類。這種分級方式從一行修改到多文件、多步驟、多語義依賴的開發挑戰，能夠更系統地評估大模型在不同能力層次上的表現。
真實數據支持：Multi-SWE-bench的1632個實例全部源自真實的開源項目（GitHub issue），經過統一的測試標準和專業開發者的審核，確保每個樣本具備清晰的問題描述、有效的修復補丁和可復現的測試環境，保證了數據集的質量與實用性。

技術原理

數據來源與質量控制：數據集中所有實例均來自真實的開源倉庫（GitHub issue），并經過嚴格的五階段數據構建流程：
- 開源倉庫篩選：基于GitHub公開倉庫，從多個維度挑選高質量項目。
- 拉取請求爬取：收集與問題相關的拉取請求（PR），提取關鍵信息。
- Docker環境構建：為每個PR建立相應的Docker容器，確保每個任務具備完整的可運行性。
- PR過濾與驗證：通過三種狀態的測試流程（原始狀態、僅應用測試補丁、同時應用測試與修復補丁）來識別有效的修復行為。
- 人工驗證：引入人工雙重標注過程，確保數據的可靠性與準確性。
強化學習支持：為了支持強化學習（RL）在代碼修復任務中的應用，團隊開源了Multi-SWE-RL，社區提供4723個結構化的訓練樣本，每個樣本均配備可復現的Docker環境，支持一鍵啟動、自動評估和快速接入RL訓練框架。這種“評估+訓練”的雙輪驅動模式，為大模型的持續優化提供了強有力的支持。

項目地址

項目官網：https://multi-swe-bench.github.io/#/
Github倉庫：https://github.com/multi-swe-bench/multi-swe-bench
HuggingFace數據集：https://huggingface.co/datasets/ByteDance-Seed/Multi-SWE-bench
arXiv技術論文：https://arxiv.org/pdf/2504.02605

應用場景

代碼修復自動化：開發者可以利用Multi-SWE-bench訓練的模型自動識別并修復代碼中的Bug，從而減少人工調試的時間和精力。
模型性能評估與提升：該數據集為大模型提供了系統性的評測基準，幫助開發者和研究人員評估模型在不同編程語言和任務難度下的表現。
編程語言比較研究：通過分析不同編程語言下的Bug修復能力，研究人員能夠深入探討各語言的優缺點。
智能學習與教育：Multi-SWE-bench為開發者和學習者提供了一個學習與提升的平臺，幫助其更好地理解不同編程語言中的常見錯誤及修復方法，提升編程能力和問題解決能力。