AIGC動態歡迎閱讀
原標題:OpenAI「草莓」模型再次跳票,凌晨發布的SWE-bench Verified是個啥?
關鍵字:樣本,測試,問題,注釋,解決方案
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
編輯:張倩、小舟有人說,「我們期待的是草莓,但他們發布的是羽衣甘藍。」我們來看看這個「羽衣甘藍」是做什么用的。一直以來,大模型的編程能力都備受關注,超強 AI 程序員 Devin 的問世更是將「AI 能否替代程序員」這一話題推上了風口浪尖。最近,Devin 也迎來了新對手 —— 初創公司 Cosine 推出的自主 AI 程序員 Genie。該公司表示,Genie 的表現輕松超越了 Devin,在第三方基準測試 SWE-bench 上的得分為 30%,而 Devin 的得分僅為 13.8%。這個 SWE-Bench 是一個用于評估 LLM 解決 GitHub 上真實軟件問題能力的基準測試數據集。它收集了來自 12 個流行的 Python 倉庫的 2,294 個 Issue-Pull Request 對。在測試時,LLM 會拿到一個代碼庫和 issue 描述,然后生成一個補丁來解決 issue 描述的問題。這個數據集在 AI 編程能力的評估中已被廣泛使用。
在 AI 編程能力進化的同時,這個基準也在進化。今天凌晨,網傳的 OpenAI「草莓」模型再次跳票,但 OpenAI 確
原文鏈接:OpenAI「草莓」模型再次跳票,凌晨發布的SWE-bench Verified是個啥?
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...