史上最難大模型測試集，千名專家鑄成！沒有模型得分超過10%，但DeepSeek-R1超o1

機器+人工三輪篩選，3000余道題目入圍

原標題：史上最難大模型測試集，千名專家鑄成！沒有模型得分超過10%，但DeepSeek-R1超o1
文章來源：量子位
內(nèi)容字數(shù)：2809字

史上最難大模型測試集：人類最后的考試

近日，一個名為“人類最后的考試”（Humanity’s Last Exam，簡稱HLE）的超難大模型測試集發(fā)布，其難度之高令人咋舌。該測試集由AI安全中心和Scale AI發(fā)起，匯集了全球500多家機構(gòu)1000多名學者的智慧，最終入圍3000多道研究生及以上難度的題目，涵蓋數(shù)理化、生物醫(yī)藥、工程和社會科學等多個學科。

測試集難度空前
HLE測試集的題目難度遠超現(xiàn)有標準，甚至連強大的o1模型也僅取得9.1%的準確率。該測試集的題目必須達到研究生難度，且不能通過搜索引擎檢索到答案。題目類型多樣，包括需要視覺能力解讀上古文字的題目，需要結(jié)合視覺信息和文本理解有機化學結(jié)構(gòu)的題目，以及需要高階推理能力的數(shù)學和計算機科學題目。即使是領(lǐng)域內(nèi)專家，也面臨巨大挑戰(zhàn)。
嚴苛的題目篩選過程
HLE測試集的篩選過程極其嚴格，經(jīng)歷了大模型和人工的雙重審查。首先，題目需經(jīng)大模型測試，只有大模型答錯非選擇題或選擇題平均準確率低于隨機猜測的題目才能通過初篩。隨后，1.3萬道題目經(jīng)過兩輪人工審核，最終僅3000多道題目入圍。每道入選題目，命題人將獲得500-5000美元的獎勵。
不同模型的表現(xiàn)
在HLE測試集上，o1模型的準確率僅為9.1%，DeepSeek-R1在純文本子集上表現(xiàn)最佳，而Gemini 1.5 Pro在非推理模型中表現(xiàn)最好。GPT-4則排名墊底，這凸顯了當前大模型在處理復(fù)雜、多模態(tài)任務(wù)方面的不足。
測試集的意義
HLE測試集的發(fā)布為評估大模型能力提供了新的標桿，也為推動大模型技術(shù)發(fā)展提供了寶貴的數(shù)據(jù)資源。其高難度和嚴謹?shù)暮Y選過程，能夠更有效地識別大模型的缺陷和局限性，從而促進AI安全研究和技術(shù)的進步。該測試集的出現(xiàn)，也為業(yè)界提供了一個更客觀、更全面的衡量大模型能力的標準。

HLE測試集的項目主頁：https://lastexam.ai/

數(shù)據(jù)集鏈接：https://huggingface.co/datasets/cais/hle

論文鏈接：https://lastexam.ai/paper