DeepSeek-R1、o1都低于10%,人類給AI的「最后考試」來了,貢獻(xiàn)者名單長達(dá)兩頁
o3-mini-high 可達(dá)13%,加上 Deep Research 還能翻倍。

原標(biāo)題:DeepSeek-R1、o1都低于10%,人類給AI的「最后考試」來了,貢獻(xiàn)者名單長達(dá)兩頁
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):5160字
AI新基準(zhǔn):人類的最后考試(HLE)
隨著AI大模型能力的飛速發(fā)展,現(xiàn)有的評(píng)估基準(zhǔn)已捉襟見肘。為了更精準(zhǔn)地衡量前沿大型語言模型(LLM)的能力,AI安全中心(Center for AI Safety)與Scale AI合作,推出一個(gè)名為“人類的最后考試”(Humanity’s Last Exam,簡稱HLE)的新基準(zhǔn)。
1. HLE 的設(shè)計(jì)目標(biāo)與構(gòu)成
HLE旨在成為一個(gè)涵蓋廣泛學(xué)科的終極封閉式學(xué)術(shù)基準(zhǔn),測試模型在人類知識(shí)前沿的理解和推理能力。目前包含3000多個(gè)高難度問題,涉及一百多個(gè)學(xué)科,包括數(shù)學(xué)、人文科學(xué)和自然科學(xué)。問題主要為多項(xiàng)選擇題和簡單問答題,答案明確且易于驗(yàn)證,但無法通過互聯(lián)網(wǎng)快速搜索得到。
2. 數(shù)據(jù)集的收集與審核
HLE的數(shù)據(jù)集由來自全球近1000名學(xué)科專家貢獻(xiàn),他們主要來自教授、研究人員和研究生。為了保證問題的質(zhì)量,團(tuán)隊(duì)制定了嚴(yán)格的提交標(biāo)準(zhǔn),包括原創(chuàng)性、明確性、可解性以及不可搜索性等。此外,還設(shè)立了50萬美元的獎(jiǎng)金池激勵(lì)高質(zhì)量投稿。收集完成后,團(tuán)隊(duì)還進(jìn)行了多輪審核,確保問題的準(zhǔn)確性和完整性。
3. SOTA模型在HLE上的表現(xiàn)
目前,包括GPT-4o和DeepSeek-R1在內(nèi)的SOTA模型在HLE上的準(zhǔn)確率均未超過10%。即使是經(jīng)過改進(jìn)的o3-mini模型,準(zhǔn)確率也僅達(dá)到13%左右(使用Deep Research可提升至26.6%)。這表明HLE的難度極高,目前的LLM在面對(duì)這類需要深入專業(yè)知識(shí)和復(fù)雜推理的問題時(shí),能力仍然有限。
4. 模型校準(zhǔn)與計(jì)算效率
研究團(tuán)隊(duì)還評(píng)估了模型的校準(zhǔn)誤差,發(fā)現(xiàn)所有模型的校準(zhǔn)都很差,經(jīng)常以高置信度給出錯(cuò)誤答案。這表明模型難以識(shí)別自身能力邊界。此外,研究還發(fā)現(xiàn),具有推理能力的模型需要消耗更多計(jì)算資源,未來模型不僅需要提高準(zhǔn)確率,還需要提升計(jì)算效率。
5. HLE的意義與展望
盡管目前LLM在HLE上的表現(xiàn)不佳,但研究團(tuán)隊(duì)預(yù)測,隨著模型能力的提升,HLE很快就會(huì)被攻克。HLE的意義在于它提供了一個(gè)嚴(yán)苛的測試平臺(tái),能夠更精準(zhǔn)地衡量LLM在特定領(lǐng)域內(nèi)的專業(yè)知識(shí)和推理能力。然而,HLE并非AI的最終基準(zhǔn),它主要關(guān)注結(jié)構(gòu)化的學(xué)術(shù)問題,而非開放式研究或創(chuàng)造性問題。
總而言之,HLE作為一項(xiàng)新的AI基準(zhǔn),為評(píng)估LLM能力提供了新的視角,也為未來AI的發(fā)展方向提供了重要的參考。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

粵公網(wǎng)安備 44011502001135號(hào)