豆包代碼大模型震撼發(fā)布:性能直逼OpenAI與Claude,編程語言的新紀元來臨!
目前還只是Preview版
原標題:豆包代碼大模型曝光!在字節(jié)最新開源基準里,多種編程語言性能僅次于OpenAI/Claude
文章來源:量子位
內容字數(shù):5659字
字節(jié)推出全新代碼大模型評估基準FullStack Bench
近日,字節(jié)跳動發(fā)布了全新的代碼大模型評估基準FullStack Bench,旨在更真實地評估AI編程水平。該評估基準首次綜合了全棧編程和多語言編程,涵蓋超過11類真實場景和16種編程語言,共包含3374個問題。這一數(shù)據(jù)集借鑒了全球最大的程序員技術問答社區(qū)Stack Overflow的數(shù)據(jù),覆蓋范圍遠超以往的評估基準。
1. FullStack Bench的亮點
FullStack Bench的設計目標在于解決現(xiàn)有基準難以反映真實世界編程復雜性的問題。與HumanEval等基準相比,F(xiàn)ullStack Bench的題目類型多樣,應用領域廣泛,能夠更全面地評估模型的綜合編程能力。每個問題均由編程專家設計,并經(jīng)過AI和人工驗證,確保數(shù)據(jù)質量。
2. SandboxFusion工具的發(fā)布
為了方便開發(fā)者評估模型能力,字節(jié)團隊還開源了SandboxFusion工具。這款工具支持多種編程語言和代碼評估數(shù)據(jù)集,幫助開發(fā)者在單服務器上高效測試模型的代碼能力。
3. 模型評測結果
基于FullStack Bench的評測顯示,閉源模型在整體表現(xiàn)上優(yōu)于開源模型。OpenAI的o1-preview模型在數(shù)學編程領域表現(xiàn)最佳,而一些開源模型如DeepSeek-Coder-v2也在特定領域取得了顯著成績。評測結果表明,不同模型在不同難度和編程語言上的表現(xiàn)差異明顯,尤其是在高難度的問題上,閉源模型的表現(xiàn)更為突出。
4. 策略對模型表現(xiàn)的影響
研究人員通過比較“反思策略”和“N次推斷策略”發(fā)現(xiàn),利用SandboxFusion的反饋上下文可以顯著提升模型的表現(xiàn)。這一發(fā)現(xiàn)強調了反饋機制在代碼生成中的重要性。
總結
字節(jié)跳動的FullStack Bench和SandboxFusion工具的推出,標志著代碼大模型評估的一個新階段。這些創(chuàng)新工具不僅為開發(fā)者提供了更全面的評測標準,也推動了AI編程助手的進一步發(fā)展。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業(yè)新突破