大模型掙錢哪家強?
原標題:Claude掙錢強于o1!OpenAI開源百萬美元編碼基準,檢驗大模型鈔能力
文章來源:機器之心
內容字數:4542字
OpenAI發布百萬美元軟件工程基準測試SWE-Lancer
近日,OpenAI發布了一個名為SWE-Lancer的全新基準測試,用于評估AI大模型在軟件工程領域的實際能力。該基準包含來自Upwork平臺的1400多個真實軟件工程任務,總價值高達100萬美元。這意味著,如果一個AI模型能夠完成所有任務,它就能獲得與人類工程師相同的百萬美元報酬。
1. SWE-Lancer基準測試詳解
SWE-Lancer基準測試包含兩類任務:工程任務(IC)和管理任務。IC任務涵蓋從簡單的bug修復到復雜功能實現,總價值41.47萬美元;管理任務則要求模型扮演軟件工程經理的角色,選擇最佳解決方案,總價值58.52萬美元。所有任務都經過嚴格的驗證,其價格也真實反映了市場價值。
該基準測試的數據來自Expensify開源庫在Upwork平臺發布的任務,OpenAI研究人員和100名專業軟件工程師參與了任務的篩選和整理。為了避免模型作弊,測試環境限制了模型對網絡和GitHub的訪問。
2. 測試結果及分析
OpenAI使用包括GPT-4o、o1和Anthropic Claude 3.5 Sonnet在內的多個前沿模型進行了測試。結果顯示,所有模型都未能完成所有任務,無法完全取代人類工程師。Claude 3.5 Sonnet表現最佳,獲得了40.33萬美元的虛擬報酬。
測試結果表明,模型在定位問題方面表現出色,但對問題的根本原因理解不足,導致解決方案不完整或存在缺陷。模型在需要推理和技術理解的管理任務上表現相對更好。
3. SWE-Lancer的意義和未來
SWE-Lancer基準測試通過將模型性能與真實經濟價值聯系起來,為評估AI模型在軟件工程領域的實際能力提供了新的標準。該基準的開源也促進了相關研究的發展,有助于推動AI模型在軟件工程領域的應用。
有人認為,隨著AI在軟件工程領域能力的擴展,擁有標準化的評估方法至關重要。SWE-Lancer的出現為這一領域提供了重要的參考,但其性也值得關注。未來,社區對SWE-Lancer Diamond的使用反饋將進一步驗證其有效性和適用性。
4. 總結
OpenAI發布的SWE-Lancer基準測試為評估AI大模型在軟件工程領域的實際能力提供了新的標準,也為未來AI在該領域的應用研究指明了方向。雖然當前模型仍無法完全取代人類工程師,但其在特定任務上的出色表現也預示著AI在軟件工程領域具有巨大的發展潛力。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺