字節開源最全面代碼大模型基準FullStack Bench,可在線體驗。
原標題:首次覆蓋超 11 類真實編程場景!豆包大模型團隊開源代碼大模型全新基準
文章來源:AI科技評論
內容字數:8306字
字節開源全棧編程基準FullStack Bench
字節跳動豆包大模型團隊近日推出了FullStack Bench,這是一個專注于全棧和多語言編程的代碼評估數據集,旨在更有效地評估大型語言模型(LLMs)在實際代碼開發場景中的能力。該數據集涵蓋了11類真實場景,支持16種編程語言,包含3374個問題,標志著代碼智能評估的一個重要進步。
評估基準的必要性
現有的代碼評估基準如HumanEval和MBPP等,通常只關注基礎和高級編程問題,無法全面反映真實世界的復雜編程需求。FullStack Bench則通過分析全球最大的程序員問答社區Stack Overflow的數據,提取出常見的真實編程應用領域,確保評估的全面性和多樣性。
FullStack Bench的構建
FullStack Bench的構建過程經過了嚴格的人工標注和質量驗證,確保每個問題的質量和準確性。數據集中不僅包括題目描述和參考解決方案,還配備了15168個單元測試用例,以提高評估的準確性。
SandboxFusion:高效的代碼沙盒工具
為支持FullStack Bench的評測需求,字節團隊還開源了SandboxFusion,這是一款高效的代碼沙盒執行工具,支持23種編程語言。SandboxFusion具備數據集模塊和沙箱執行模塊,能夠安全高效地執行不同語言的代碼。
評測結果與模型表現
基于FullStack Bench,研究團隊對20余款代碼大型模型進行了評測。結果顯示,閉源模型在多數編程任務上表現優于開源模型,尤其是在數學和高級編程任務中,反映出模型設計和訓練數據質量對表現的顯著影響。此外,SandboxFusion的使用能夠顯著提升模型的表現。
結論與展望
FullStack Bench及其配套的SandboxFusion工具為評估AI在現實編程場景中的能力提供了快速參考,推動了代碼智能領域的發展。字節團隊期待通過這一平臺,促進更多開發者和研究人員的參與與合作。
聯系作者
文章來源:AI科技評論
作者微信:
作者簡介:雷峰網旗下AI新媒體。聚焦AI前沿研究,關注AI工程落地。