大語言模型成為了「調包俠」？耶魯提出代碼生成新基準：ML-Bench

AIGC動態2年前 (2023)發布夕小瑤科技說

AIGC動態歡迎閱讀

原標題：大語言模型成為了「調包俠」？耶魯提出代碼生成新基準：ML-Bench

關鍵字：代碼,倉庫,模型,文件,任務

文章來源：夕小瑤科技說

內容字數：6422字

內容摘要：夕小瑤科技說原創作者| 夕小瑤編輯部更實際，更有用的代碼生成評測方案來了！ML-Bench提出了新的代碼生成Benchmark，其目標在于評測大模型如何利用開源倉庫完成機器學習任務。僅僅在代碼生成測評榜單上表現出色并不代表大模型就實用，因為現存的代碼生成數據集往往過分關注從零開始編寫代碼，這與實際工程和科研編程中對現有庫的依賴并不完全一致。開發者和研究人員在真實環境中往往會基于現有的代碼庫進行開發和創新。鑒于此，來自耶魯、學、北京大學的研究人員提出了“ML-Bench”，一個基于14個流行開源 GitHub 機器學習倉庫建立的機器學習任務數據集。在ML-Bench中，模型根據與用戶需求相關的文檔，生成滿足用戶需求的Python代碼或Bash腳本。此數據集所反映的編程場景更加貼近實際情況，提供了在這些倉庫基礎上進行機器學習任務的評價方式。于是，ML-Bench建立了一種新模式，即讓大…

原文鏈接：點此閱讀原文：大語言模型成為了「調包俠」？耶魯提出代碼生成新基準：ML-Bench