<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        Multi-SWE-bench

        AI工具6個月前更新 AI工具集
        194 0 0

        Multi-SWE-bench – 字節(jié)豆包開源的多語言代碼修復(fù)基準

        Multi-SWE-bench

        Multi-SWE-bench是字節(jié)跳動豆包大模型團隊推出的首個多語言代碼修復(fù)基準,旨在為全棧工程提供全面的評測標準。該基準在SWE-bench的基礎(chǔ)上,首次擴展至包括Python以外的七種主流編程語言,如Java、TypeScript、JavaScript、Go、Rust、C和C++。數(shù)據(jù)集中收錄了1632個真實的修復(fù)任務(wù),均選自GitHub issue,經(jīng)過嚴格篩選和人工驗證,確保樣本具備明確的問題描述、正確的修復(fù)補丁以及可復(fù)現(xiàn)的測試環(huán)境。

        Multi-SWE-bench是什么

        Multi-SWE-bench是字節(jié)跳動豆包大模型團隊開源的多語言代碼修復(fù)基準,首次覆蓋了除Python外的七種流行編程語言,包括Java、TypeScript、JavaScript、Go、Rust、C和C++。該基準數(shù)據(jù)集包含1632個真實的修復(fù)任務(wù),這些任務(wù)均來源于GitHub issue,經(jīng)過精心挑選與人工審核,確保每個樣本都有清晰的問題描述、有效的修復(fù)補丁和可復(fù)現(xiàn)的運行環(huán)境。同時,數(shù)據(jù)集引入了任務(wù)難度分級機制,涵蓋從簡單到復(fù)雜的各種開發(fā)挑戰(zhàn)。

        主要功能

        • 多語言代碼修復(fù)評估:Multi-SWE-bench作為業(yè)內(nèi)首個多語言代碼修復(fù)基準,首次涵蓋了七種主流編程語言,全面評估大模型在不同編程環(huán)境下的自動修復(fù)能力。
        • 任務(wù)難度分級:該數(shù)據(jù)用了任務(wù)難度分級機制,將問題分為簡單、中等和困難三類。這種分級方式從一行修改到多文件、多步驟、多語義依賴的開發(fā)挑戰(zhàn),能夠更系統(tǒng)地評估大模型在不同能力層次上的表現(xiàn)。
        • 真實數(shù)據(jù)支持:Multi-SWE-bench的1632個實例全部源自真實的開源項目(GitHub issue),經(jīng)過統(tǒng)一的測試標準和專業(yè)開發(fā)者的審核,確保每個樣本具備清晰的問題描述、有效的修復(fù)補丁和可復(fù)現(xiàn)的測試環(huán)境,保證了數(shù)據(jù)集的質(zhì)量與實用性。

        技術(shù)原理

        • 數(shù)據(jù)來源與質(zhì)量控制:數(shù)據(jù)集中所有實例均來自真實的開源倉庫(GitHub issue),并經(jīng)過嚴格的五階段數(shù)據(jù)構(gòu)建流程:
          • 開源倉庫篩選:基于GitHub公開倉庫,從多個維度挑選高質(zhì)量項目。
          • 拉取請求爬取:收集與問題相關(guān)的拉取請求(PR),提取關(guān)鍵信息。
          • Docker環(huán)境構(gòu)建:為每個PR建立相應(yīng)的Docker容器,確保每個任務(wù)具備完整的可運行性。
          • PR過濾與驗證:通過三種狀態(tài)的測試流程(原始狀態(tài)、僅應(yīng)用測試補丁、同時應(yīng)用測試與修復(fù)補丁)來識別有效的修復(fù)行為。
          • 人工驗證:引入人工雙重標注過程,確保數(shù)據(jù)的可靠性與準確性。
        • 強化學(xué)習(xí)支持:為了支持強化學(xué)習(xí)(RL)在代碼修復(fù)任務(wù)中的應(yīng)用,團隊開源了Multi-SWE-RL,社區(qū)提供4723個結(jié)構(gòu)化的訓(xùn)練樣本,每個樣本均配備可復(fù)現(xiàn)的Docker環(huán)境,支持一鍵啟動、自動評估和快速接入RL訓(xùn)練框架。這種“評估+訓(xùn)練”的雙輪驅(qū)動模式,為大模型的持續(xù)優(yōu)化提供了強有力的支持。

        項目地址

        應(yīng)用場景

        • 代碼修復(fù)自動化:開發(fā)者可以利用Multi-SWE-bench訓(xùn)練的模型自動識別并修復(fù)代碼中的Bug,從而減少人工調(diào)試的時間和精力。
        • 模型性能評估與提升:該數(shù)據(jù)集為大模型提供了系統(tǒng)性的評測基準,幫助開發(fā)者和研究人員評估模型在不同編程語言和任務(wù)難度下的表現(xiàn)。
        • 編程語言比較研究:通過分析不同編程語言下的Bug修復(fù)能力,研究人員能夠深入探討各語言的優(yōu)缺點。
        • 智能學(xué)習(xí)與教育:Multi-SWE-bench為開發(fā)者和學(xué)習(xí)者提供了一個學(xué)習(xí)與提升的平臺,幫助其更好地理解不同編程語言中的常見錯誤及修復(fù)方法,提升編程能力和問題解決能力。

        常見問題

        • Multi-SWE-bench的主要目標是什么?
          主要目標在于提供一個多語言的代碼修復(fù)評測基準,幫助評估和提升大模型在代碼修復(fù)任務(wù)中的性能。
        • 數(shù)據(jù)集中包含哪些語言?
          數(shù)據(jù)集覆蓋了八種編程語言,包括Python、Java、TypeScript、JavaScript、Go、Rust、C和C++。
        • 如何獲取Multi-SWE-bench的資源?
          用戶可以訪問項目官網(wǎng)、GitHub倉庫以及HuggingFace數(shù)據(jù)集頁面獲取相關(guān)資源和數(shù)據(jù)。
        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲人色大成年网站在线观看| 亚洲精品A在线观看| 久久夜色精品国产噜噜亚洲AV| 久草免费福利在线| 国产亚洲精品免费视频播放| 一区二区三区免费精品视频| 亚洲成人一区二区| 大妹子影视剧在线观看全集免费| 亚洲另类少妇17p| 两个人看的www免费高清| 国产亚洲3p无码一区二区| 国产精品免费AV片在线观看| 亚洲高清视频免费| 四虎在线最新永久免费| 亚洲日韩一区二区三区| 四虎永久在线精品免费观看地址| 成人午夜免费视频| 亚洲AV无码专区亚洲AV伊甸园| 99在线免费观看视频| 亚洲日本久久久午夜精品| 国产男女猛烈无遮挡免费网站| 一级毛片大全免费播放下载 | 久久国产精品成人免费| 亚洲AV无码久久精品成人| 又大又硬又爽又粗又快的视频免费| 亚洲喷奶水中文字幕电影| 在线免费观看国产视频| 一个人看的免费观看日本视频www 一个人看的免费视频www在线高清动漫 | 一区二区三区免费视频观看| 国产亚洲精品自在久久| 亚洲成人免费电影| 国产成人久久精品亚洲小说| 亚洲精品成人片在线观看精品字幕| 一级毛片全部免费播放| 亚洲欧美自偷自拍另类视| 久久亚洲AV永久无码精品| 精品国产sm捆绑最大网免费站| 亚洲Av永久无码精品黑人| 亚洲热妇无码AV在线播放| 日韩欧毛片免费视频| 一级做a爱过程免费视频高清|