GPT-4單項僅得7.1分，揭露大模型代碼能力三大短板，最新基準(zhǔn)測試來了

AIGC動態(tài)2年前 (2024)發(fā)布量子位

AIGC動態(tài)歡迎閱讀

原標(biāo)題：GPT-4單項僅得7.1分，揭露大模型代碼能力三大短板，最新基準(zhǔn)測試來了
關(guān)鍵字：模型,代碼,騰訊,報告,字節(jié)跳動
文章來源：量子位
內(nèi)容字數(shù)：7296字

內(nèi)容摘要：

DevBench團隊投稿量子位 | 公眾號 QbitAI首個AI軟件工程師Devin正式亮相，立即引爆了整個技術(shù)界。
Devin不僅能夠輕松解決編碼任務(wù)，更可以自主完成軟件開發(fā)的整個周期——從項目規(guī)劃到部署，涵蓋但不限于構(gòu)建網(wǎng)站、自主尋找并修復(fù) BUG、訓(xùn)練以及微調(diào)AI模型等。
這種 “強到逆天” 的軟件開發(fā)能力，讓一眾碼農(nóng)紛紛絕望，直呼：“程序員的末日真來了？”
在一眾測試成績中，Devin在SWE-Bench基準(zhǔn)測試中的表現(xiàn)尤為引人注目。
SWE-Bench是一個評估AI軟件工程能力的測試，重點考察大模型解決實際 GitHub 問題的能力。
Devin以解決13.86%的問題率高居榜首，“秒殺”了GPT-4僅有的 1.74%得分，將一眾AI大模型遠遠甩在后面。
這強大的性能讓人不禁浮想聯(lián)翩：“未來的軟件開發(fā)中，AI將扮演怎樣的角色？”
上海人工智能實驗室聯(lián)合字節(jié)跳動SE Lab的研究人員以及SWE-Bench團隊，提出了一個新測試基準(zhǔn)DevBench，首次揭秘大模型在多大程度上可以從PRD出發(fā)，完成一個完整項目的設(shè)計、開發(fā)、測試。
具體地說，DevBench首次對大模型進行了

原文鏈接：GPT-4單項僅得7.1分，揭露大模型代碼能力三大短板，最新基準(zhǔn)測試來了