「科學(xué)推理」中文基準(zhǔn)測(cè)評(píng)(SuperCLUE-Science)方案發(fā)布
3 大學(xué)科、覆蓋 16 個(gè)學(xué)科子域

原標(biāo)題:「科學(xué)推理」中文基準(zhǔn)測(cè)評(píng)(SuperCLUE-Science)方案發(fā)布
文章來(lái)源:HyperAI超神經(jīng)
內(nèi)容字?jǐn)?shù):8027字
SuperCLUE-Science:中文科學(xué)推理基準(zhǔn)測(cè)評(píng)
隨著人工智能技術(shù)的飛速發(fā)展,大語(yǔ)言模型在高難度科學(xué)題目上的推理能力日益受到關(guān)注。OpenAI新模型o1在GPQA-Diamond基準(zhǔn)測(cè)試中展現(xiàn)了驚人的科學(xué)推理能力,甚至達(dá)到了人類博士級(jí)別。為了更有效地評(píng)估國(guó)內(nèi)外大模型的科學(xué)推理能力,特別是涌現(xiàn)出的眾多具備卓越能力的中文大模型,我們推出了SuperCLUE-Science中文科學(xué)推理基準(zhǔn)測(cè)評(píng)。
1. SuperCLUE-Science 簡(jiǎn)介
SuperCLUE-Science 基準(zhǔn)測(cè)評(píng)專注于評(píng)估中文大模型在研究生級(jí)別科學(xué)題目上的表現(xiàn),為模型開(kāi)發(fā)提供更精準(zhǔn)的參考。排行榜地址:www.SuperCLUEai.com (具體測(cè)評(píng)體系以正式發(fā)布的測(cè)評(píng)報(bào)告為準(zhǔn))。
2. SuperCLUE-Science 特點(diǎn)
全面性
涵蓋物理、化學(xué)、生物三大學(xué)科的多個(gè)二級(jí)子領(lǐng)域,確保對(duì)中文大模型科學(xué)推理能力的全面評(píng)估。
客觀性
采用精心設(shè)計(jì)的問(wèn)題-答案對(duì),確保題目的客觀性和有解性,重點(diǎn)評(píng)估答案的準(zhǔn)確性。
挑戰(zhàn)性
題目難度達(dá)到研究生級(jí)別,涵蓋知識(shí)點(diǎn)廣度大,推理深度高,對(duì)模型提出嚴(yán)峻挑戰(zhàn)。
3. 測(cè)評(píng)任務(wù)與示例
測(cè)評(píng)涵蓋物理、化學(xué)、生物三大學(xué)科的多個(gè)二級(jí)子領(lǐng)域,例如:
物理學(xué)
- 量子力學(xué)
- 高能粒子物理
- 通用物理
- 天體物理學(xué)
- 電磁學(xué)與光子學(xué)
- 相對(duì)論力學(xué)
- 統(tǒng)計(jì)力學(xué)
- 凝聚態(tài)物理
- 光學(xué)與聲學(xué)
示例 (量子力學(xué)): (此處應(yīng)插入具體的量子力學(xué)示例題)
化學(xué)
- 有機(jī)化學(xué)
- 通用化學(xué)
- 無(wú)機(jī)化學(xué)
- 分析化學(xué)
- 物理化學(xué)
示例 (有機(jī)化學(xué)): (此處應(yīng)插入具體的物理化學(xué)示例題)
生物學(xué)
- 分子生物學(xué)
- 遺傳學(xué)
示例 (遺傳學(xué)): (此處應(yīng)插入具體的遺傳學(xué)示例題)
4. 測(cè)評(píng)方法與評(píng)估
評(píng)分方法
參考SuperCLUE-CoT「鏈?zhǔn)酵评怼箿y(cè)評(píng)基準(zhǔn)的評(píng)分方式,針對(duì)每個(gè)維度(解題過(guò)程和最終答案)進(jìn)行評(píng)估,并提供詳細(xì)反饋。
測(cè)評(píng)集構(gòu)建
流程:搜集整理研究生級(jí)別科學(xué)知識(shí) → 撰寫(xiě)中文科學(xué)推理題 → 測(cè)試 → 修改完善題庫(kù)。
評(píng)分標(biāo)準(zhǔn)
評(píng)估過(guò)程分三個(gè)階段:準(zhǔn)備題庫(kù)、分析解答、打分。采用定量評(píng)分,并引入自動(dòng)化評(píng)分系統(tǒng),確保評(píng)估的客觀性和效率。評(píng)估標(biāo)準(zhǔn)涵蓋“最終答案”的準(zhǔn)確性和“解題過(guò)程”的嚴(yán)謹(jǐn)性。
評(píng)估示例
文中已提供遺傳學(xué)和有機(jī)化學(xué)的評(píng)估案例,展示了不同模型的得分和反饋意見(jiàn)。(此處應(yīng)插入具體的評(píng)估示例,包括題目、參、模型答案、評(píng)分結(jié)果和反饋)
5. 測(cè)評(píng)邀請(qǐng)
- 報(bào)名時(shí)間:1月2日開(kāi)始
- 模型確認(rèn):1月10日
- 測(cè)評(píng)執(zhí)行:1月10日-15日
- 結(jié)果發(fā)布:1月16日
6. 測(cè)評(píng)流程
- 郵件申請(qǐng) (標(biāo)題:SuperCLUE-Science中文科學(xué)推理測(cè)評(píng)申請(qǐng),發(fā)送至contact@superclue.ai,請(qǐng)使用單位郵箱)
- 意向溝通
- 參測(cè)確認(rèn)與協(xié)議
- 提供模型API及文檔
- 獲得測(cè)評(píng)報(bào)告
郵件內(nèi)容需包含:?jiǎn)挝恍畔ⅰ⒋竽P秃?jiǎn)介、聯(lián)系人及部門(mén)、聯(lián)系方式。
聯(lián)系作者
文章來(lái)源:HyperAI超神經(jīng)
作者微信:
作者簡(jiǎn)介:解構(gòu)技術(shù)先進(jìn)性與普適性,報(bào)道更前沿的 AIforScience 案例

粵公網(wǎng)安備 44011502001135號(hào)