機器+人工三輪篩選,3000余道題目入圍
原標題:史上最難大模型測試集,千名專家鑄成!沒有模型得分超過10%,但DeepSeek-R1超o1
文章來源:量子位
內容字數:2809字
史上最難大模型測試集:人類最后的考試
近日,一個名為“人類最后的考試”(Humanity’s Last Exam,簡稱HLE)的超難大模型測試集發布,其難度之高令人咋舌。該測試集由AI安全中心和Scale AI發起,匯集了全球500多家機構1000多名學者的智慧,最終入圍3000多道研究生及以上難度的題目,涵蓋數理化、生物醫藥、工程和社會科學等多個學科。
測試集難度空前
HLE測試集的題目難度遠超現有標準,甚至連強大的o1模型也僅取得9.1%的準確率。該測試集的題目必須達到研究生難度,且不能通過搜索引擎檢索到答案。題目類型多樣,包括需要視覺能力解讀上古文字的題目,需要結合視覺信息和文本理解有機化學結構的題目,以及需要高階推理能力的數學和計算機科學題目。即使是領域內專家,也面臨巨大挑戰。
嚴苛的題目篩選過程
HLE測試集的篩選過程極其嚴格,經歷了大模型和人工的雙重審查。首先,題目需經大模型測試,只有大模型答錯非選擇題或選擇題平均準確率低于隨機猜測的題目才能通過初篩。隨后,1.3萬道題目經過兩輪人工審核,最終僅3000多道題目入圍。每道入選題目,命題人將獲得500-5000美元的獎勵。
不同模型的表現
在HLE測試集上,o1模型的準確率僅為9.1%,DeepSeek-R1在純文本子集上表現最佳,而Gemini 1.5 Pro在非推理模型中表現最好。GPT-4則排名墊底,這凸顯了當前大模型在處理復雜、多模態任務方面的不足。
測試集的意義
HLE測試集的發布為評估大模型能力提供了新的標桿,也為推動大模型技術發展提供了寶貴的數據資源。其高難度和嚴謹的篩選過程,能夠更有效地識別大模型的缺陷和局限性,從而促進AI安全研究和技術的進步。該測試集的出現,也為業界提供了一個更客觀、更全面的衡量大模型能力的標準。
HLE測試集的項目主頁:https://lastexam.ai/
數據集鏈接:https://huggingface.co/datasets/cais/hle
論文鏈接:https://lastexam.ai/paper
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破