<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        史上最難大模型測試集,千名專家鑄成!沒有模型得分超過10%,但DeepSeek-R1超o1

        AIGC動態(tài)6個月前發(fā)布 量子位
        566 0 0

        機器+人工三輪篩選,3000余道題目入圍

        史上最難大模型測試集,千名專家鑄成!沒有模型得分超過10%,但DeepSeek-R1超o1

        原標題:史上最難大模型測試集,千名專家鑄成!沒有模型得分超過10%,但DeepSeek-R1超o1
        文章來源:量子位
        內(nèi)容字數(shù):2809字

        史上最難大模型測試集:人類最后的考試

        近日,一個名為“人類最后的考試”(Humanity’s Last Exam,簡稱HLE)的超難大模型測試集發(fā)布,其難度之高令人咋舌。該測試集由AI安全中心和Scale AI發(fā)起,匯集了全球500多家機構(gòu)1000多名學者的智慧,最終入圍3000多道研究生及以上難度的題目,涵蓋數(shù)理化、生物醫(yī)藥、工程和社會科學等多個學科。

        1. 測試集難度空前

          HLE測試集的題目難度遠超現(xiàn)有標準,甚至連強大的o1模型也僅取得9.1%的準確率。該測試集的題目必須達到研究生難度,且不能通過搜索引擎檢索到答案。題目類型多樣,包括需要視覺能力解讀上古文字的題目,需要結(jié)合視覺信息和文本理解有機化學結(jié)構(gòu)的題目,以及需要高階推理能力的數(shù)學和計算機科學題目。即使是領(lǐng)域內(nèi)專家,也面臨巨大挑戰(zhàn)。

        2. 嚴苛的題目篩選過程

          HLE測試集的篩選過程極其嚴格,經(jīng)歷了大模型和人工的雙重審查。首先,題目需經(jīng)大模型測試,只有大模型答錯非選擇題或選擇題平均準確率低于隨機猜測的題目才能通過初篩。隨后,1.3萬道題目經(jīng)過兩輪人工審核,最終僅3000多道題目入圍。每道入選題目,命題人將獲得500-5000美元的獎勵。

        3. 不同模型的表現(xiàn)

          在HLE測試集上,o1模型的準確率僅為9.1%,DeepSeek-R1在純文本子集上表現(xiàn)最佳,而Gemini 1.5 Pro在非推理模型中表現(xiàn)最好。GPT-4則排名墊底,這凸顯了當前大模型在處理復(fù)雜、多模態(tài)任務(wù)方面的不足。

        4. 測試集的意義

          HLE測試集的發(fā)布為評估大模型能力提供了新的標桿,也為推動大模型技術(shù)發(fā)展提供了寶貴的數(shù)據(jù)資源。其高難度和嚴謹?shù)暮Y選過程,能夠更有效地識別大模型的缺陷和局限性,從而促進AI安全研究和技術(shù)的進步。該測試集的出現(xiàn),也為業(yè)界提供了一個更客觀、更全面的衡量大模型能力的標準。

        HLE測試集的項目主頁:https://lastexam.ai/

        數(shù)據(jù)集鏈接:https://huggingface.co/datasets/cais/hle

        論文鏈接:https://lastexam.ai/paper


        聯(lián)系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 日本一卡精品视频免费| 久久亚洲色WWW成人欧美| 99视频在线观看免费| 亚洲av手机在线观看| 久久精品国产亚洲AV| 免费萌白酱国产一区二区| 亚洲av无码专区在线观看亚| 日韩毛片无码永久免费看| 亚洲a∨无码精品色午夜| 国产精品视频免费一区二区三区 | 最近2019年免费中文字幕高清 | 亚洲黄色片在线观看| 7m凹凸精品分类大全免费| 亚洲色欲www综合网| 免费毛片a在线观看67194| 亚洲日韩一中文字暮| 日本a级片免费看| 一区二区免费国产在线观看| 亚洲精品无码专区在线在线播放 | 亚洲va久久久噜噜噜久久狠狠| 国产免费阿v精品视频网址| 99久久亚洲精品无码毛片| 91九色精品国产免费| 亚洲AV色无码乱码在线观看| 亚洲国产精品丝袜在线观看| 免费无码又爽又刺激一高潮| 亚洲精品在线视频观看| 午夜成年女人毛片免费观看| 一个人看的免费观看日本视频www| 国产亚洲精品a在线无码| 成人浮力影院免费看| 无码一区二区三区亚洲人妻| 国产国拍精品亚洲AV片| 亚洲大片免费观看| 免费在线观看亚洲| 午夜影视日本亚洲欧洲精品一区| 无码人妻久久一区二区三区免费丨| 男男gay做爽爽的视频免费| 久久久无码精品亚洲日韩蜜桃| 免费看韩国黄a片在线观看| 久久国产精品免费一区二区三区|