「科學推理」中文基準測評(SuperCLUE-Science)方案發布
3 大學科、覆蓋 16 個學科子域
原標題:「科學推理」中文基準測評(SuperCLUE-Science)方案發布
文章來源:HyperAI超神經
內容字數:8027字
SuperCLUE-Science:中文科學推理基準測評
隨著人工智能技術的飛速發展,大語言模型在高難度科學題目上的推理能力日益受到關注。OpenAI新模型o1在GPQA-Diamond基準測試中展現了驚人的科學推理能力,甚至達到了人類博士級別。為了更有效地評估國內外大模型的科學推理能力,特別是涌現出的眾多具備卓越能力的中文大模型,我們推出了SuperCLUE-Science中文科學推理基準測評。
1. SuperCLUE-Science 簡介
SuperCLUE-Science 基準測評專注于評估中文大模型在研究生級別科學題目上的表現,為模型開發提供更精準的參考。排行榜地址:www.SuperCLUEai.com (具體測評體系以正式發布的測評報告為準)。
2. SuperCLUE-Science 特點
全面性
涵蓋物理、化學、生物三大學科的多個二級子領域,確保對中文大模型科學推理能力的全面評估。
客觀性
采用精心設計的問題-答案對,確保題目的客觀性和有解性,重點評估答案的準確性。
挑戰性
題目難度達到研究生級別,涵蓋知識點廣度大,推理深度高,對模型提出嚴峻挑戰。
3. 測評任務與示例
測評涵蓋物理、化學、生物三大學科的多個二級子領域,例如:
物理學
- 量子力學
- 高能粒子物理
- 通用物理
- 天體物理學
- 電磁學與光子學
- 相對論力學
- 統計力學
- 凝聚態物理
- 光學與聲學
示例 (量子力學): (此處應插入具體的量子力學示例題)
化學
- 有機化學
- 通用化學
- 無機化學
- 分析化學
- 物理化學
示例 (有機化學): (此處應插入具體的物理化學示例題)
生物學
- 分子生物學
- 遺傳學
示例 (遺傳學): (此處應插入具體的遺傳學示例題)
4. 測評方法與評估
評分方法
參考SuperCLUE-CoT「鏈式推理」測評基準的評分方式,針對每個維度(解題過程和最終答案)進行評估,并提供詳細反饋。
測評集構建
流程:搜集整理研究生級別科學知識 → 撰寫中文科學推理題 → 測試 → 修改完善題庫。
評分標準
評估過程分三個階段:準備題庫、分析解答、打分。采用定量評分,并引入自動化評分系統,確保評估的客觀性和效率。評估標準涵蓋“最終答案”的準確性和“解題過程”的嚴謹性。
評估示例
文中已提供遺傳學和有機化學的評估案例,展示了不同模型的得分和反饋意見。(此處應插入具體的評估示例,包括題目、參、模型答案、評分結果和反饋)
5. 測評邀請
- 報名時間:1月2日開始
- 模型確認:1月10日
- 測評執行:1月10日-15日
- 結果發布:1月16日
6. 測評流程
- 郵件申請 (標題:SuperCLUE-Science中文科學推理測評申請,發送至contact@superclue.ai,請使用單位郵箱)
- 意向溝通
- 參測確認與協議
- 提供模型API及文檔
- 獲得測評報告
郵件內容需包含:單位信息、大模型簡介、聯系人及部門、聯系方式。
聯系作者
文章來源:HyperAI超神經
作者微信:
作者簡介:解構技術先進性與普適性,報道更前沿的 AIforScience 案例