<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        Claude掙錢強于o1!OpenAI開源百萬美元編碼基準(zhǔn),檢驗大模型鈔能力

        AIGC動態(tài)7個月前發(fā)布 機器之心
        601 0 0

        大模型掙錢哪家強?

        Claude掙錢強于o1!OpenAI開源百萬美元編碼基準(zhǔn),檢驗大模型鈔能力

        原標(biāo)題:Claude掙錢強于o1!OpenAI開源百萬美元編碼基準(zhǔn),檢驗大模型鈔能力
        文章來源:機器之心
        內(nèi)容字?jǐn)?shù):4542字

        OpenAI發(fā)布百萬美元軟件工程基準(zhǔn)測試SWE-Lancer

        近日,OpenAI發(fā)布了一個名為SWE-Lancer的全新基準(zhǔn)測試,用于評估AI大模型在軟件工程領(lǐng)域的實際能力。該基準(zhǔn)包含來自Upwork平臺的1400多個真實軟件工程任務(wù),總價值高達(dá)100萬美元。這意味著,如果一個AI模型能夠完成所有任務(wù),它就能獲得與人類工程師相同的百萬美元報酬。

        1. SWE-Lancer基準(zhǔn)測試詳解

        SWE-Lancer基準(zhǔn)測試包含兩類任務(wù):工程任務(wù)(IC)和管理任務(wù)。IC任務(wù)涵蓋從簡單的bug修復(fù)到復(fù)雜功能實現(xiàn),總價值41.47萬美元;管理任務(wù)則要求模型扮演軟件工程經(jīng)理的角色,選擇最佳解決方案,總價值58.52萬美元。所有任務(wù)都經(jīng)過嚴(yán)格的驗證,其價格也真實反映了市場價值。

        該基準(zhǔn)測試的數(shù)據(jù)來自Expensify開源庫在Upwork平臺發(fā)布的任務(wù),OpenAI研究人員和100名專業(yè)軟件工程師參與了任務(wù)的篩選和整理。為了避免模型作弊,測試環(huán)境限制了模型對網(wǎng)絡(luò)和GitHub的訪問。

        2. 測試結(jié)果及分析

        OpenAI使用包括GPT-4o、o1和Anthropic Claude 3.5 Sonnet在內(nèi)的多個前沿模型進行了測試。結(jié)果顯示,所有模型都未能完成所有任務(wù),無法完全取代人類工程師。Claude 3.5 Sonnet表現(xiàn)最佳,獲得了40.33萬美元的虛擬報酬。

        測試結(jié)果表明,模型在定位問題方面表現(xiàn)出色,但對問題的根本原因理解不足,導(dǎo)致解決方案不完整或存在缺陷。模型在需要推理和技術(shù)理解的管理任務(wù)上表現(xiàn)相對更好。

        3. SWE-Lancer的意義和未來

        SWE-Lancer基準(zhǔn)測試通過將模型性能與真實經(jīng)濟價值聯(lián)系起來,為評估AI模型在軟件工程領(lǐng)域的實際能力提供了新的標(biāo)準(zhǔn)。該基準(zhǔn)的開源也促進了相關(guān)研究的發(fā)展,有助于推動AI模型在軟件工程領(lǐng)域的應(yīng)用。

        有人認(rèn)為,隨著AI在軟件工程領(lǐng)域能力的擴展,擁有標(biāo)準(zhǔn)化的評估方法至關(guān)重要。SWE-Lancer的出現(xiàn)為這一領(lǐng)域提供了重要的參考,但其性也值得關(guān)注。未來,社區(qū)對SWE-Lancer Diamond的使用反饋將進一步驗證其有效性和適用性。

        4. 總結(jié)

        OpenAI發(fā)布的SWE-Lancer基準(zhǔn)測試為評估AI大模型在軟件工程領(lǐng)域的實際能力提供了新的標(biāo)準(zhǔn),也為未來AI在該領(lǐng)域的應(yīng)用研究指明了方向。雖然當(dāng)前模型仍無法完全取代人類工程師,但其在特定任務(wù)上的出色表現(xiàn)也預(yù)示著AI在軟件工程領(lǐng)域具有巨大的發(fā)展?jié)摿Α?/p>


        聯(lián)系作者

        文章來源:機器之心
        作者微信:
        作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 久久久久久噜噜精品免费直播| va天堂va亚洲va影视中文字幕| 免费大黄网站在线看| 国产一级做a爱免费视频| 亚洲精品二区国产综合野狼| 亚洲精品中文字幕无乱码| 亚洲色大成WWW亚洲女子| 特级毛片爽www免费版| 在线涩涩免费观看国产精品| 99xxoo视频在线永久免费观看| 九九九精品成人免费视频| 亚洲国产精品成人| 亚洲天堂电影在线观看| 亚洲免费视频一区二区三区| 日本免费中文字幕在线看| 国产亚洲人成网站在线观看不卡| 97国免费在线视频| 免费无码精品黄AV电影| 国产亚洲国产bv网站在线| 日韩在线免费看网站| 黄色一级毛片免费看| 国内自产拍自a免费毛片| 亚洲精品在线播放视频| 国产大片线上免费观看| 亚洲成a人片77777老司机| 特a级免费高清黄色片| 亚洲AV无码一区二区三区系列| 亚洲高清视频在线| 18禁美女黄网站色大片免费观看| 国产国产成年年人免费看片| 亚洲日日做天天做日日谢| 国产在线观看免费不卡| 久久成人18免费网站| 亚洲人成电影青青在线播放| 99久久免费精品视频| 亚洲精品亚洲人成在线播放| 国产成人免费全部网站| 最好免费观看高清在线 | 岛国av无码免费无禁网站| 亚洲AV日韩综合一区| 999国内精品永久免费视频|