GPT-4單項(xiàng)僅得7.1分,揭露大模型代碼能力三大短板,最新基準(zhǔn)測(cè)試來了
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:GPT-4單項(xiàng)僅得7.1分,揭露大模型代碼能力三大短板,最新基準(zhǔn)測(cè)試來了
關(guān)鍵字:模型,代碼,騰訊,報(bào)告,字節(jié)跳動(dòng)
文章來源:量子位
內(nèi)容字?jǐn)?shù):7296字
內(nèi)容摘要:
DevBench團(tuán)隊(duì) 投稿量子位 | 公眾號(hào) QbitAI首個(gè)AI軟件工程師Devin正式亮相,立即引爆了整個(gè)技術(shù)界。
Devin不僅能夠輕松解決編碼任務(wù),更可以自主完成軟件開發(fā)的整個(gè)周期——從項(xiàng)目規(guī)劃到部署,涵蓋但不限于構(gòu)建網(wǎng)站、自主尋找并修復(fù) BUG、訓(xùn)練以及微調(diào)AI模型等。
這種 “強(qiáng)到逆天” 的軟件開發(fā)能力,讓一眾碼農(nóng)紛紛絕望,直呼:“程序員的末日真來了?”
在一眾測(cè)試成績(jī)中,Devin在SWE-Bench基準(zhǔn)測(cè)試中的表現(xiàn)尤為引人注目。
SWE-Bench是一個(gè)評(píng)估AI軟件工程能力的測(cè)試,重點(diǎn)考察大模型解決實(shí)際 GitHub 問題的能力。
Devin以解決13.86%的問題率高居榜首,“秒殺”了GPT-4僅有的 1.74%得分,將一眾AI大模型遠(yuǎn)遠(yuǎn)甩在后面。
這強(qiáng)大的性能讓人不禁浮想聯(lián)翩:“未來的軟件開發(fā)中,AI將扮演怎樣的角色?”
上海人工智能實(shí)驗(yàn)室聯(lián)合字節(jié)跳動(dòng)SE Lab的研究人員以及SWE-Bench團(tuán)隊(duì),提出了一個(gè)新測(cè)試基準(zhǔn)DevBench,首次揭秘大模型在多大程度上可以從PRD出發(fā),完成一個(gè)完整項(xiàng)目的設(shè)計(jì)、開發(fā)、測(cè)試。
具體地說,DevBench首次對(duì)大模型進(jìn)行了
原文鏈接:GPT-4單項(xiàng)僅得7.1分,揭露大模型代碼能力三大短板,最新基準(zhǔn)測(cè)試來了
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破