Claude掙錢強于o1！OpenAI開源百萬美元編碼基準(zhǔn)，檢驗大模型鈔能力

大模型掙錢哪家強？

原標(biāo)題：Claude掙錢強于o1！OpenAI開源百萬美元編碼基準(zhǔn)，檢驗大模型鈔能力
文章來源：機器之心
內(nèi)容字?jǐn)?shù)：4542字

OpenAI發(fā)布百萬美元軟件工程基準(zhǔn)測試SWE-Lancer

近日，OpenAI發(fā)布了一個名為SWE-Lancer的全新基準(zhǔn)測試，用于評估AI大模型在軟件工程領(lǐng)域的實際能力。該基準(zhǔn)包含來自Upwork平臺的1400多個真實軟件工程任務(wù)，總價值高達(dá)100萬美元。這意味著，如果一個AI模型能夠完成所有任務(wù)，它就能獲得與人類工程師相同的百萬美元報酬。

1. SWE-Lancer基準(zhǔn)測試詳解

SWE-Lancer基準(zhǔn)測試包含兩類任務(wù)：工程任務(wù)(IC)和管理任務(wù)。IC任務(wù)涵蓋從簡單的bug修復(fù)到復(fù)雜功能實現(xiàn)，總價值41.47萬美元；管理任務(wù)則要求模型扮演軟件工程經(jīng)理的角色，選擇最佳解決方案，總價值58.52萬美元。所有任務(wù)都經(jīng)過嚴(yán)格的驗證，其價格也真實反映了市場價值。

該基準(zhǔn)測試的數(shù)據(jù)來自Expensify開源庫在Upwork平臺發(fā)布的任務(wù)，OpenAI研究人員和100名專業(yè)軟件工程師參與了任務(wù)的篩選和整理。為了避免模型作弊，測試環(huán)境限制了模型對網(wǎng)絡(luò)和GitHub的訪問。

2. 測試結(jié)果及分析

OpenAI使用包括GPT-4o、o1和Anthropic Claude 3.5 Sonnet在內(nèi)的多個前沿模型進行了測試。結(jié)果顯示，所有模型都未能完成所有任務(wù)，無法完全取代人類工程師。Claude 3.5 Sonnet表現(xiàn)最佳，獲得了40.33萬美元的虛擬報酬。

測試結(jié)果表明，模型在定位問題方面表現(xiàn)出色，但對問題的根本原因理解不足，導(dǎo)致解決方案不完整或存在缺陷。模型在需要推理和技術(shù)理解的管理任務(wù)上表現(xiàn)相對更好。

3. SWE-Lancer的意義和未來

SWE-Lancer基準(zhǔn)測試通過將模型性能與真實經(jīng)濟價值聯(lián)系起來，為評估AI模型在軟件工程領(lǐng)域的實際能力提供了新的標(biāo)準(zhǔn)。該基準(zhǔn)的開源也促進了相關(guān)研究的發(fā)展，有助于推動AI模型在軟件工程領(lǐng)域的應(yīng)用。

有人認(rèn)為，隨著AI在軟件工程領(lǐng)域能力的擴展，擁有標(biāo)準(zhǔn)化的評估方法至關(guān)重要。SWE-Lancer的出現(xiàn)為這一領(lǐng)域提供了重要的參考，但其性也值得關(guān)注。未來，社區(qū)對SWE-Lancer Diamond的使用反饋將進一步驗證其有效性和適用性。

4. 總結(jié)

OpenAI發(fā)布的SWE-Lancer基準(zhǔn)測試為評估AI大模型在軟件工程領(lǐng)域的實際能力提供了新的標(biāo)準(zhǔn)，也為未來AI在該領(lǐng)域的應(yīng)用研究指明了方向。雖然當(dāng)前模型仍無法完全取代人類工程師，但其在特定任務(wù)上的出色表現(xiàn)也預(yù)示著AI在軟件工程領(lǐng)域具有巨大的發(fā)展?jié)摿Α?/p>

聯(lián)系作者

文章來源：機器之心
作者微信：
作者簡介：專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

閱讀原文

# AIGC動態(tài)# AI模型商業(yè)化 # Claude盈利能力 # 大模型編碼能力評估 # 開源基準(zhǔn)測試 # 百萬美元獎金

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

Claude掙錢強于o1！OpenAI開源百萬美元編碼基準(zhǔn)，檢驗大模型鈔能力

大模型掙錢哪家強？

OpenAI發(fā)布百萬美元軟件工程基準(zhǔn)測試SWE-Lancer

1. SWE-Lancer基準(zhǔn)測試詳解

2. 測試結(jié)果及分析

3. SWE-Lancer的意義和未來

4. 總結(jié)

聯(lián)系作者

Llama都在用的RoPE有了視頻版，復(fù)旦上海AI Lab等提出長視頻理解/檢索絕佳拍檔

阿爾特曼被偷家了

相關(guān)文章

暫無評論

ChatGPT

玩虛擬模特？