工作耗時半年,近百位學界、業界專家參與標注
原標題:DeepSeek-R1、o1都在及格線掙扎!字節開源全新知識推理測評集,覆蓋285個學科
文章來源:量子位
內容字數:6044字
字節跳動開源SuperGPQA:大模型評測的“黃岡密卷”
近年來,大模型評測基準逐漸同質化,難以準確評估模型真實能力。針對這一問題,字節跳動豆包大模型團隊聯合M-A-P開源社區,推出全新評測基準SuperGPQA,旨在更全面、更精準地評估大模型的知識推理能力。這篇文章將總結SuperGPQA的主要特點和貢獻。
1. 傳統評測基準的局限性
傳統的評測基準如MMLU和GPQA存在三大痛點:學科覆蓋不全,僅涵蓋少量主流學科,缺乏對長尾知識的評估;題目質量存疑,存在數據污染風險,難以反映模型的真實學術水平;評測維度單一,主要停留在知識記憶層面,缺乏對高階推理能力的考量。頂級模型在這些基準上的高分,并不能真實反映其在復雜場景下的能力。
2. SuperGPQA:更全面、更具挑戰性的評測基準
SuperGPQA旨在解決上述問題,其主要特點包括:
全學科覆蓋:SuperGPQA覆蓋285個研究生級學科,包含26529道專業題目,遠超現有基準,實現了前所未有的學科全面性。
難度分布多樣:題目難度均衡分布,在工程和科學領域包含大量難題,確保對模型高階推理能力的有效評估。
語義結構豐富:題目語義結構多樣,不同學科的語言特色鮮明,能夠更有效地區分不同模型的性能。
題目設計一致:題目長度和選項長度統一,迷惑性和挑戰性高,確保評測的公平性和可靠性。
嚴格的質量控制:SuperGPQA采用專家標注、眾包注釋和大模型協同驗證三重流程,確保題目質量和區分度,避免數據污染。
3. SuperGPQA的實驗結果與結論
SuperGPQA對多個主流LLM進行了測試,結果顯示:
推理模型表現最佳,DeepSeek-R1以61.82%的準確率登頂,但仍顯著低于人類研究生水平。
指令微調顯著提升模型性能。
國內模型展現出競爭力,豆包大模型在模型中排名第一,超越GPT-4o。
模型在STEM領域的性能顯著優于人文社科領域。
4. SuperGPQA的意義與影響
SuperGPQA的開源,為大模型的評估提供了更全面、更可靠的工具,有助于推動大模型技術的發展。其嚴格的數據構建過程和全面的學科覆蓋,填補了行業空白,為未來大模型評測樹立了新的標桿。 這不僅標志著字節跳動在基礎科研領域的投入,也展現了其對大模型技術發展的長遠規劃。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破