<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        「科學推理」中文基準測評(SuperCLUE-Science)方案發布

        3 大學科、覆蓋 16 個學科子域

        「科學推理」中文基準測評(SuperCLUE-Science)方案發布

        原標題:「科學推理」中文基準測評(SuperCLUE-Science)方案發布
        文章來源:HyperAI超神經
        內容字數:8027字

        SuperCLUE-Science:中文科學推理基準測評

        隨著人工智能技術的飛速發展,大語言模型在高難度科學題目上的推理能力日益受到關注。OpenAI新模型o1在GPQA-Diamond基準測試中展現了驚人的科學推理能力,甚至達到了人類博士級別。為了更有效地評估國內外大模型的科學推理能力,特別是涌現出的眾多具備卓越能力的中文大模型,我們推出了SuperCLUE-Science中文科學推理基準測評。

        1. SuperCLUE-Science 簡介

        SuperCLUE-Science 基準測評專注于評估中文大模型在研究生級別科學題目上的表現,為模型開發提供更精準的參考。排行榜地址:www.SuperCLUEai.com (具體測評體系以正式發布的測評報告為準)。

        2. SuperCLUE-Science 特點

        1. 全面性

          涵蓋物理、化學、生物三大學科的多個二級子領域,確保對中文大模型科學推理能力的全面評估。

        2. 客觀性

          采用精心設計的問題-答案對,確保題目的客觀性和有解性,重點評估答案的準確性。

        3. 挑戰性

          題目難度達到研究生級別,涵蓋知識點廣度大,推理深度高,對模型提出嚴峻挑戰。

        3. 測評任務與示例

        測評涵蓋物理、化學、生物三大學科的多個二級子領域,例如:

        1. 物理學

          • 量子力學
          • 高能粒子物理
          • 通用物理
          • 天體物理學
          • 電磁學與光子學
          • 相對論力學
          • 統計力學
          • 凝聚態物理
          • 光學與聲學

          示例 (量子力學): (此處應插入具體的量子力學示例題)

        2. 化學

          • 有機化學
          • 通用化學
          • 無機化學
          • 分析化學
          • 物理化學

          示例 (有機化學): (此處應插入具體的物理化學示例題)

        3. 生物學

          • 分子生物學
          • 遺傳學

          示例 (遺傳學): (此處應插入具體的遺傳學示例題)

        4. 測評方法與評估

        1. 評分方法

          參考SuperCLUE-CoT「鏈式推理」測評基準的評分方式,針對每個維度(解題過程和最終答案)進行評估,并提供詳細反饋。

        2. 測評集構建

          流程:搜集整理研究生級別科學知識 → 撰寫中文科學推理題 → 測試 → 修改完善題庫。

        3. 評分標準

          評估過程分三個階段:準備題庫、分析解答、打分。采用定量評分,并引入自動化評分系統,確保評估的客觀性和效率。評估標準涵蓋“最終答案”的準確性和“解題過程”的嚴謹性。

        4. 評估示例

          文中已提供遺傳學和有機化學的評估案例,展示了不同模型的得分和反饋意見。(此處應插入具體的評估示例,包括題目、參、模型答案、評分結果和反饋)

        5. 測評邀請

        1. 報名時間:1月2日開始
        2. 模型確認:1月10日
        3. 測評執行:1月10日-15日
        4. 結果發布:1月16日

        6. 測評流程

        1. 郵件申請 (標題:SuperCLUE-Science中文科學推理測評申請,發送至contact@superclue.ai,請使用單位郵箱)
        2. 意向溝通
        3. 參測確認與協議
        4. 提供模型API及文檔
        5. 獲得測評報告

        郵件內容需包含:單位信息、大模型簡介、聯系人及部門、聯系方式。


        聯系作者

        文章來源:HyperAI超神經
        作者微信:
        作者簡介:解構技術先進性與普適性,報道更前沿的 AIforScience 案例

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲国产精品日韩在线| 免费一级毛片不卡不收费| 亚洲AV无码久久精品狠狠爱浪潮| 国产精品亚洲精品久久精品 | 亚洲日本VA午夜在线电影| 91免费国产在线观看| 好吊妞视频免费视频| 亚洲国产日韩a在线播放| av午夜福利一片免费看久久| 国产成人亚洲综合| 久久久久久噜噜精品免费直播| 久久亚洲2019中文字幕| 久久精品乱子伦免费| 亚洲精品一区二区三区四区乱码 | 亚洲精品无码aⅴ中文字幕蜜桃| 日韩精品免费电影| ssswww日本免费网站片| 国产AV无码专区亚洲A∨毛片| 99热在线观看免费| 学生妹亚洲一区二区| 亚洲免费人成在线视频观看 | 国产亚洲精品美女久久久| 日本卡1卡2卡三卡免费| 亚洲日本国产精华液| 四虎影院免费视频| 国产精品免费一区二区三区 | AV激情亚洲男人的天堂国语| 亚洲中文字幕无码专区| 91精品啪在线观看国产线免费| 亚洲色欲啪啪久久WWW综合网| 亚洲成a人片在线观看日本麻豆| 最近免费中文字幕MV在线视频3| 亚洲男人天堂影院| 免费大学生国产在线观看p| 免费国产99久久久香蕉| 天堂亚洲国产中文在线| 亚洲熟女少妇一区二区| 成人免费网站在线观看| 亚洲一卡2卡4卡5卡6卡残暴在线| 内射无码专区久久亚洲| 久久99国产乱子伦精品免费|