OpenAI「草莓」模型再次跳票,凌晨發(fā)布的SWE-bench Verified是個啥?
AIGC動態(tài)歡迎閱讀
原標題:OpenAI「草莓」模型再次跳票,凌晨發(fā)布的SWE-bench Verified是個啥?
關(guān)鍵字:樣本,測試,問題,注釋,解決方案
文章來源:機器之心
內(nèi)容字數(shù):0字
內(nèi)容摘要:
機器之心報道
編輯:張倩、小舟有人說,「我們期待的是草莓,但他們發(fā)布的是羽衣甘藍。」我們來看看這個「羽衣甘藍」是做什么用的。一直以來,大模型的編程能力都備受關(guān)注,超強 AI 程序員 Devin 的問世更是將「AI 能否替代程序員」這一話題推上了風口浪尖。最近,Devin 也迎來了新對手 —— 初創(chuàng)公司 Cosine 推出的自主 AI 程序員 Genie。該公司表示,Genie 的表現(xiàn)輕松超越了 Devin,在第三方基準測試 SWE-bench 上的得分為 30%,而 Devin 的得分僅為 13.8%。這個 SWE-Bench 是一個用于評估 LLM 解決 GitHub 上真實軟件問題能力的基準測試數(shù)據(jù)集。它收集了來自 12 個流行的 Python 倉庫的 2,294 個 Issue-Pull Request 對。在測試時,LLM 會拿到一個代碼庫和 issue 描述,然后生成一個補丁來解決 issue 描述的問題。這個數(shù)據(jù)集在 AI 編程能力的評估中已被廣泛使用。
在 AI 編程能力進化的同時,這個基準也在進化。今天凌晨,網(wǎng)傳的 OpenAI「草莓」模型再次跳票,但 OpenAI 確
原文鏈接:OpenAI「草莓」模型再次跳票,凌晨發(fā)布的SWE-bench Verified是個啥?
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...