Claude掙錢強于o1!OpenAI開源百萬美元編碼基準(zhǔn),檢驗大模型鈔能力
大模型掙錢哪家強?
原標(biāo)題:Claude掙錢強于o1!OpenAI開源百萬美元編碼基準(zhǔn),檢驗大模型鈔能力
文章來源:機器之心
內(nèi)容字?jǐn)?shù):4542字
OpenAI發(fā)布百萬美元軟件工程基準(zhǔn)測試SWE-Lancer
近日,OpenAI發(fā)布了一個名為SWE-Lancer的全新基準(zhǔn)測試,用于評估AI大模型在軟件工程領(lǐng)域的實際能力。該基準(zhǔn)包含來自Upwork平臺的1400多個真實軟件工程任務(wù),總價值高達(dá)100萬美元。這意味著,如果一個AI模型能夠完成所有任務(wù),它就能獲得與人類工程師相同的百萬美元報酬。
1. SWE-Lancer基準(zhǔn)測試詳解
SWE-Lancer基準(zhǔn)測試包含兩類任務(wù):工程任務(wù)(IC)和管理任務(wù)。IC任務(wù)涵蓋從簡單的bug修復(fù)到復(fù)雜功能實現(xiàn),總價值41.47萬美元;管理任務(wù)則要求模型扮演軟件工程經(jīng)理的角色,選擇最佳解決方案,總價值58.52萬美元。所有任務(wù)都經(jīng)過嚴(yán)格的驗證,其價格也真實反映了市場價值。
該基準(zhǔn)測試的數(shù)據(jù)來自Expensify開源庫在Upwork平臺發(fā)布的任務(wù),OpenAI研究人員和100名專業(yè)軟件工程師參與了任務(wù)的篩選和整理。為了避免模型作弊,測試環(huán)境限制了模型對網(wǎng)絡(luò)和GitHub的訪問。
2. 測試結(jié)果及分析
OpenAI使用包括GPT-4o、o1和Anthropic Claude 3.5 Sonnet在內(nèi)的多個前沿模型進行了測試。結(jié)果顯示,所有模型都未能完成所有任務(wù),無法完全取代人類工程師。Claude 3.5 Sonnet表現(xiàn)最佳,獲得了40.33萬美元的虛擬報酬。
測試結(jié)果表明,模型在定位問題方面表現(xiàn)出色,但對問題的根本原因理解不足,導(dǎo)致解決方案不完整或存在缺陷。模型在需要推理和技術(shù)理解的管理任務(wù)上表現(xiàn)相對更好。
3. SWE-Lancer的意義和未來
SWE-Lancer基準(zhǔn)測試通過將模型性能與真實經(jīng)濟價值聯(lián)系起來,為評估AI模型在軟件工程領(lǐng)域的實際能力提供了新的標(biāo)準(zhǔn)。該基準(zhǔn)的開源也促進了相關(guān)研究的發(fā)展,有助于推動AI模型在軟件工程領(lǐng)域的應(yīng)用。
有人認(rèn)為,隨著AI在軟件工程領(lǐng)域能力的擴展,擁有標(biāo)準(zhǔn)化的評估方法至關(guān)重要。SWE-Lancer的出現(xiàn)為這一領(lǐng)域提供了重要的參考,但其性也值得關(guān)注。未來,社區(qū)對SWE-Lancer Diamond的使用反饋將進一步驗證其有效性和適用性。
4. 總結(jié)
OpenAI發(fā)布的SWE-Lancer基準(zhǔn)測試為評估AI大模型在軟件工程領(lǐng)域的實際能力提供了新的標(biāo)準(zhǔn),也為未來AI在該領(lǐng)域的應(yīng)用研究指明了方向。雖然當(dāng)前模型仍無法完全取代人類工程師,但其在特定任務(wù)上的出色表現(xiàn)也預(yù)示著AI在軟件工程領(lǐng)域具有巨大的發(fā)展?jié)摿Α?/p>
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺
相關(guān)文章
