大語言模型成為了「調(diào)包俠」?耶魯提出代碼生成新基準(zhǔn):ML-Bench
AIGC動態(tài)歡迎閱讀
原標(biāo)題:大語言模型成為了「調(diào)包俠」?耶魯提出代碼生成新基準(zhǔn):ML-Bench
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):6422字
內(nèi)容摘要:夕小瑤科技說 原創(chuàng)作者| 夕小瑤編輯部更實(shí)際,更有用的代碼生成評測方案來了!ML-Bench提出了新的代碼生成Benchmark,其目標(biāo)在于評測大模型如何利用開源倉庫完成機(jī)器學(xué)習(xí)任務(wù)。僅僅在代碼生成測評榜單上表現(xiàn)出色并不代表大模型就實(shí)用,因?yàn)楝F(xiàn)存的代碼生成數(shù)據(jù)集往往過分關(guān)注從零開始編寫代碼,這與實(shí)際工程和科研編程中對現(xiàn)有庫的依賴并不完全一致。開發(fā)者和研究人員在真實(shí)環(huán)境中往往會基于現(xiàn)有的代碼庫進(jìn)行開發(fā)和創(chuàng)新。鑒于此,來自耶魯、學(xué)、北京大學(xué)的研究人員提出了“ML-Bench”,一個(gè)基于14個(gè)流行開源 GitHub 機(jī)器學(xué)習(xí)倉庫建立的機(jī)器學(xué)習(xí)任務(wù)數(shù)據(jù)集。在ML-Bench中,模型根據(jù)與用戶需求相關(guān)的文檔,生成滿足用戶需求的Python代碼或Bash腳本。此數(shù)據(jù)集所反映的編程場景更加貼近實(shí)際情況,提供了在這些倉庫基礎(chǔ)上進(jìn)行機(jī)器學(xué)習(xí)任務(wù)的評價(jià)方式。于是,ML-Bench建立了一種新模式,即讓大…
原文鏈接:點(diǎn)此閱讀原文:大語言模型成為了「調(diào)包俠」?耶魯提出代碼生成新基準(zhǔn):ML-Bench
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:更快的AI前沿,更深的行業(yè)洞見。聚集25萬AI應(yīng)用開發(fā)者、算法工程師和研究人員。一線作者均來自清北、國外頂級AI實(shí)驗(yàn)室和互聯(lián)網(wǎng)大廠,兼?zhèn)涿襟wsense與技術(shù)深度。