DeepSeek-R1、o1都在及格線掙扎!字節(jié)開源全新知識推理測評集,覆蓋285個學科
工作耗時半年,近百位學界、業(yè)界專家參與標注
原標題:DeepSeek-R1、o1都在及格線掙扎!字節(jié)開源全新知識推理測評集,覆蓋285個學科
文章來源:量子位
內(nèi)容字數(shù):6044字
字節(jié)跳動開源SuperGPQA:大模型評測的“黃岡密卷”
近年來,大模型評測基準逐漸同質(zhì)化,難以準確評估模型真實能力。針對這一問題,字節(jié)跳動豆包大模型團隊聯(lián)合M-A-P開源社區(qū),推出全新評測基準SuperGPQA,旨在更全面、更精準地評估大模型的知識推理能力。這篇文章將總結(jié)SuperGPQA的主要特點和貢獻。
1. 傳統(tǒng)評測基準的局限性
傳統(tǒng)的評測基準如MMLU和GPQA存在三大痛點:學科覆蓋不全,僅涵蓋少量主流學科,缺乏對長尾知識的評估;題目質(zhì)量存疑,存在數(shù)據(jù)污染風險,難以反映模型的真實學術(shù)水平;評測維度單一,主要停留在知識記憶層面,缺乏對高階推理能力的考量。頂級模型在這些基準上的高分,并不能真實反映其在復雜場景下的能力。
2. SuperGPQA:更全面、更具挑戰(zhàn)性的評測基準
SuperGPQA旨在解決上述問題,其主要特點包括:
全學科覆蓋:SuperGPQA覆蓋285個研究生級學科,包含26529道專業(yè)題目,遠超現(xiàn)有基準,實現(xiàn)了前所未有的學科全面性。
難度分布多樣:題目難度均衡分布,在工程和科學領(lǐng)域包含大量難題,確保對模型高階推理能力的有效評估。
語義結(jié)構(gòu)豐富:題目語義結(jié)構(gòu)多樣,不同學科的語言特色鮮明,能夠更有效地區(qū)分不同模型的性能。
題目設(shè)計一致:題目長度和選項長度統(tǒng)一,迷惑性和挑戰(zhàn)性高,確保評測的公平性和可靠性。
嚴格的質(zhì)量控制:SuperGPQA采用專家標注、眾包注釋和大模型協(xié)同驗證三重流程,確保題目質(zhì)量和區(qū)分度,避免數(shù)據(jù)污染。
3. SuperGPQA的實驗結(jié)果與結(jié)論
SuperGPQA對多個主流LLM進行了測試,結(jié)果顯示:
推理模型表現(xiàn)最佳,DeepSeek-R1以61.82%的準確率登頂,但仍顯著低于人類研究生水平。
指令微調(diào)顯著提升模型性能。
國內(nèi)模型展現(xiàn)出競爭力,豆包大模型在模型中排名第一,超越GPT-4o。
模型在STEM領(lǐng)域的性能顯著優(yōu)于人文社科領(lǐng)域。
4. SuperGPQA的意義與影響
SuperGPQA的開源,為大模型的評估提供了更全面、更可靠的工具,有助于推動大模型技術(shù)的發(fā)展。其嚴格的數(shù)據(jù)構(gòu)建過程和全面的學科覆蓋,填補了行業(yè)空白,為未來大模型評測樹立了新的標桿。 這不僅標志著字節(jié)跳動在基礎(chǔ)科研領(lǐng)域的投入,也展現(xiàn)了其對大模型技術(shù)發(fā)展的長遠規(guī)劃。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破