AIGC動態歡迎閱讀
原標題:大語言模型成為了「調包俠」?耶魯提出代碼生成新基準:ML-Bench
文章來源:夕小瑤科技說
內容字數:6422字
內容摘要:夕小瑤科技說 原創作者| 夕小瑤編輯部更實際,更有用的代碼生成評測方案來了!ML-Bench提出了新的代碼生成Benchmark,其目標在于評測大模型如何利用開源倉庫完成機器學習任務。僅僅在代碼生成測評榜單上表現出色并不代表大模型就實用,因為現存的代碼生成數據集往往過分關注從零開始編寫代碼,這與實際工程和科研編程中對現有庫的依賴并不完全一致。開發者和研究人員在真實環境中往往會基于現有的代碼庫進行開發和創新。鑒于此,來自耶魯、學、北京大學的研究人員提出了“ML-Bench”,一個基于14個流行開源 GitHub 機器學習倉庫建立的機器學習任務數據集。在ML-Bench中,模型根據與用戶需求相關的文檔,生成滿足用戶需求的Python代碼或Bash腳本。此數據集所反映的編程場景更加貼近實際情況,提供了在這些倉庫基礎上進行機器學習任務的評價方式。于是,ML-Bench建立了一種新模式,即讓大…
原文鏈接:點此閱讀原文:大語言模型成為了「調包俠」?耶魯提出代碼生成新基準:ML-Bench
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:更快的AI前沿,更深的行業洞見。聚集25萬AI應用開發者、算法工程師和研究人員。一線作者均來自清北、國外頂級AI實驗室和互聯網大廠,兼備媒體sense與技術深度。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...