SuperGPQA – 豆包大模型聯合 M-A-P 開源的知識推理基準測試集
SuperGPQA是什么
SuperGPQA 是由字節跳動豆包大模型團隊與 M-A-P 聯合推出的一個全面的知識推理基準測試集,涵蓋 285 個研究生級學科,包含多達 26529 道專業題目。該項目旨在解決傳統評測基準在學科覆蓋不足、題目質量參差不齊及評測維度單一等方面的問題。通過專家與大語言模型的協同構建,SuperGPQA 確保了題目的高質量與高難度,并且包括了 STEM 和非 STEM 學科,其中有 42.33% 的題目涉及數學計算或嚴謹推理,能夠有效評估大語言模型的泛化能力及真實推理水平。
SuperGPQA的主要功能
- 全面評估大語言模型(LLM)的泛化能力:SuperGPQA 覆蓋 285 個研究生級學科,包括長尾學科,能夠全面衡量 LLM 在各領域的知識儲備與推理能力。
- 揭示模型的真實推理能力:42.33% 的題目需要進行數學計算或形式推理,確保測試集能夠有效評估模型在復雜任務中的表現,而不僅僅是知識的記憶。
- 提供跨學科分析框架:SuperGPQA 的廣泛學科覆蓋,包括 STEM(科學、技術、工程、數學)和非 STEM(哲學、文學、歷史等)領域,為研究模型在不同學科中的表現提供統一的評估工具。
- 填補長尾學科評估空白:傳統評測集對輕工業、農業、服務科學等長尾學科的覆蓋不足,而 SuperGPQA 則通過全面的學科覆蓋彌補這一短板。
- 為模型優化提供參考:基于 SuperGPQA 的評測結果,研究人員可以發現模型的不足之處,進而優化模型的架構與訓練方法。
SuperGPQA的技術原理
- 專家-LLM 協同構建:
- 來源篩選:專家從可信的來源(如教科書、權威練習網站)中篩選和收集原始問題,以避免眾包標注帶來的低質量風險。
- 轉錄與規范化:專家對原始問題進行語言規范化和格式轉換,確保所有問題具備統一的學術語言和標準的多項選擇題格式。
- 質量檢驗:通過基于規則的初步過濾、基于 LLM 的質量檢測(如有效性、領域相關性評估)以及專家復審,確保題目的高質量與高區分度。
- 多模型協作驗證:在質量檢驗階段,采用多個先進的 LLM(如 GPT-4、Gemini-flash 等)進行多維度檢測,以降低數據泄漏風險,提升題目的可靠性與區分度。
- 跨學科語義結構設計:利用 t-SNE 等可視化技術分析題目的語義結構,確保不同學科領域的語言特色得以保留,同時在工程和科學類問題中保持語義的相似性。
- 高難度任務設計:42.33% 的題目要求數學計算或嚴謹推理,確保測試集在評估模型處理復雜任務時的有效性,而不僅僅是考察知識的記憶能力。
SuperGPQA的項目地址
- 項目官網:https://supergpqa.github.io/
- GitHub倉庫:https://github.com/SuperGPQA/SuperGPQA
- HuggingFace模型庫:https://huggingface.co/datasets/m-a-p/SuperGPQA
- arXiv技術論文:https://arxiv.org/pdf/2502.14739
SuperGPQA的應用場景
- 模型性能評估:全面衡量大語言模型在各學科領域的知識與推理能力。
- 模型優化指導:幫助研究者識別模型的不足,優化訓練策略。
- 跨學科分析:支持不同學科之間對模型能力的比較研究。
- 教育研究:用于開發智能教育工具以及研究人工智能在教育中的應用。
- 行業應用測試:為智能客服、醫療輔助等行業應用提供有效的測試工具。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章

暫無評論...