AIGC動態歡迎閱讀
原標題:首個AI軟件工程師Devin完整技術報告出爐,還有人用GPT做出了「復刻版」
關鍵字:測試,問題,報告,團隊,智能
文章來源:機器之心
內容字數:8736字
內容摘要:
機器之心報道
編輯:杜偉、大盤雞從編碼、編譯到調試、驗證,AI 智能體能做的事情更多了。這周三,Cognition AI 團隊發布的首個 AI 軟件工程師 Devin 引爆了 AI 社區,引發了人們對程序員這個職業未來前景的熱議。在對 Devin 的評估中,團隊使用了 SWE-bench。這是一個由 GitHub 問題和拉取請求組成的軟件工程系統的自動化基準測試。他們認為 SWE-bench 是一個不錯的選擇,它確定性地評估(通過單元測試)系統解決現實世界代碼庫問題的能力,并與 HumanEval 等僅限于功能的基準測試不同。
從結果來看,在 SWE-Bench 基礎測試中,無需人類輔助,Devin 就可以解決 13.86% 的問題。而當前 SOTA 模型,在沒有人類幫忙的情況下,只能完成 1.96% 的問題。即使提供了要編輯(輔助)的確切文件,當前 SOTA 模型也只能解決 4.80% 的問題。數據集
具體來講,SWE-bench 是一個包含 2294 個問題和 GitHub 流行開源 Python 存儲庫中拉取請求(pull request)的數據集,目的是測試系統編寫真實代碼
原文鏈接:首個AI軟件工程師Devin完整技術報告出爐,還有人用GPT做出了「復刻版」
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...