DeepSeek-R1、o1都低于10%，人類給AI的「最后考試」來了，貢獻者名單長達兩頁

o3-mini-high 可達13%，加上 Deep Research 還能翻倍。

原標題：DeepSeek-R1、o1都低于10%，人類給AI的「最后考試」來了，貢獻者名單長達兩頁
文章來源：機器之心
內容字數：5160字

AI新基準：人類的最后考試（HLE）

隨著AI大模型能力的飛速發展，現有的評估基準已捉襟見肘。為了更精準地衡量前沿大型語言模型(LLM)的能力，AI安全中心（Center for AI Safety）與Scale AI合作，推出一個名為“人類的最后考試”（Humanity’s Last Exam，簡稱HLE）的新基準。

1. HLE 的設計目標與構成

HLE旨在成為一個涵蓋廣泛學科的終極封閉式學術基準，測試模型在人類知識前沿的理解和推理能力。目前包含3000多個高難度問題，涉及一百多個學科，包括數學、人文科學和自然科學。問題主要為多項選擇題和簡單問答題，答案明確且易于驗證，但無法通過互聯網快速搜索得到。

2. 數據集的收集與審核

HLE的數據集由來自全球近1000名學科專家貢獻，他們主要來自教授、研究人員和研究生。為了保證問題的質量，團隊制定了嚴格的提交標準，包括原創性、明確性、可解性以及不可搜索性等。此外，還設立了50萬美元的獎金池激勵高質量投稿。收集完成后，團隊還進行了多輪審核，確保問題的準確性和完整性。

3. SOTA模型在HLE上的表現

目前，包括GPT-4o和DeepSeek-R1在內的SOTA模型在HLE上的準確率均未超過10%。即使是經過改進的o3-mini模型，準確率也僅達到13%左右（使用Deep Research可提升至26.6%）。這表明HLE的難度極高，目前的LLM在面對這類需要深入專業知識和復雜推理的問題時，能力仍然有限。

4. 模型校準與計算效率

研究團隊還評估了模型的校準誤差，發現所有模型的校準都很差，經常以高置信度給出錯誤答案。這表明模型難以識別自身能力邊界。此外，研究還發現，具有推理能力的模型需要消耗更多計算資源，未來模型不僅需要提高準確率，還需要提升計算效率。

5. HLE的意義與展望

盡管目前LLM在HLE上的表現不佳，但研究團隊預測，隨著模型能力的提升，HLE很快就會被攻克。HLE的意義在于它提供了一個嚴苛的測試平臺，能夠更精準地衡量LLM在特定領域內的專業知識和推理能力。然而，HLE并非AI的最終基準，它主要關注結構化的學術問題，而非開放式研究或創造性問題。

總而言之，HLE作為一項新的AI基準，為評估LLM能力提供了新的視角，也為未來AI的發展方向提供了重要的參考。

聯系作者

文章來源：機器之心
作者微信：
作者簡介：專業的人工智能媒體和產業服務平臺

閱讀原文

# AIGC動態 # AI最后考試 # DeepSeek-R1o1 # 人類評估AI # 大型語言模型評測 # 長尾關鍵詞

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

DeepSeek-R1、o1都低于10%，人類給AI的「最后考試」來了，貢獻者名單長達兩頁

o3-mini-high 可達13%，加上 Deep Research 還能翻倍。

AI新基準：人類的最后考試（HLE）

1. HLE 的設計目標與構成

2. 數據集的收集與審核

3. SOTA模型在HLE上的表現

4. 模型校準與計算效率

5. HLE的意義與展望

聯系作者

號稱接入DeepSeek鍵盤鼠標1天賣近100萬元/名創CEO：內部溝通嚴禁使用PPT/極越已成功為61名用戶完成退款支付工作

房價預測/礦藏勘探/自然災害預測……AI助力地球科學革新，浙大/清華/Google Research等已發表重要成果

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點