<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        DeepSeek-R1、o1都低于10%,人類給AI的「最后考試」來了,貢獻者名單長達兩頁

        AIGC動態7個月前發布 機器之心
        434 0 0

        o3-mini-high 可達13%,加上 Deep Research 還能翻倍。

        DeepSeek-R1、o1都低于10%,人類給AI的「最后考試」來了,貢獻者名單長達兩頁

        原標題:DeepSeek-R1、o1都低于10%,人類給AI的「最后考試」來了,貢獻者名單長達兩頁
        文章來源:機器之心
        內容字數:5160字

        AI新基準:人類的最后考試(HLE)

        隨著AI大模型能力的飛速發展,現有的評估基準已捉襟見肘。為了更精準地衡量前沿大型語言模型(LLM)的能力,AI安全中心(Center for AI Safety)與Scale AI合作,推出一個名為“人類的最后考試”(Humanity’s Last Exam,簡稱HLE)的新基準。

        1. HLE 的設計目標與構成

        HLE旨在成為一個涵蓋廣泛學科的終極封閉式學術基準,測試模型在人類知識前沿的理解和推理能力。目前包含3000多個高難度問題,涉及一百多個學科,包括數學、人文科學和自然科學。問題主要為多項選擇題和簡單問答題,答案明確且易于驗證,但無法通過互聯網快速搜索得到。

        2. 數據集的收集與審核

        HLE的數據集由來自全球近1000名學科專家貢獻,他們主要來自教授、研究人員和研究生。為了保證問題的質量,團隊制定了嚴格的提交標準,包括原創性、明確性、可解性以及不可搜索性等。此外,還設立了50萬美元的獎金池激勵高質量投稿。收集完成后,團隊還進行了多輪審核,確保問題的準確性和完整性。

        3. SOTA模型在HLE上的表現

        目前,包括GPT-4o和DeepSeek-R1在內的SOTA模型在HLE上的準確率均未超過10%。即使是經過改進的o3-mini模型,準確率也僅達到13%左右(使用Deep Research可提升至26.6%)。這表明HLE的難度極高,目前的LLM在面對這類需要深入專業知識和復雜推理的問題時,能力仍然有限。

        4. 模型校準與計算效率

        研究團隊還評估了模型的校準誤差,發現所有模型的校準都很差,經常以高置信度給出錯誤答案。這表明模型難以識別自身能力邊界。此外,研究還發現,具有推理能力的模型需要消耗更多計算資源,未來模型不僅需要提高準確率,還需要提升計算效率。

        5. HLE的意義與展望

        盡管目前LLM在HLE上的表現不佳,但研究團隊預測,隨著模型能力的提升,HLE很快就會被攻克。HLE的意義在于它提供了一個嚴苛的測試平臺,能夠更精準地衡量LLM在特定領域內的專業知識和推理能力。然而,HLE并非AI的最終基準,它主要關注結構化的學術問題,而非開放式研究或創造性問題。

        總而言之,HLE作為一項新的AI基準,為評估LLM能力提供了新的視角,也為未來AI的發展方向提供了重要的參考。


        聯系作者

        文章來源:機器之心
        作者微信:
        作者簡介:專業的人工智能媒體和產業服務平臺

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲精品第一国产综合亚AV| 国产成人综合亚洲亚洲国产第一页| 免费人成网站在线观看10分钟| 中文字幕久精品免费视频| 最近免费2019中文字幕大全| 亚洲国产AV无码专区亚洲AV| 亚洲国产成人精品无码一区二区| 中文字幕亚洲日本岛国片| 久久午夜免费视频| 亚洲中字慕日产2020| 久久久久亚洲Av片无码v| 永久免费不卡在线观看黄网站| 国产AV无码专区亚洲A∨毛片| 日本亚洲欧洲免费天堂午夜看片女人员 | 亚洲欧洲尹人香蕉综合| 7m凹凸精品分类大全免费| 久久精品国产亚洲av日韩| 国产免费不卡视频| 久久久久久曰本AV免费免费| 亚洲国产精品一区二区九九 | 国产亚洲真人做受在线观看| 亚洲av成人一区二区三区观看在线| 性感美女视频在线观看免费精品| 亚洲一区爱区精品无码| 老外毛片免费视频播放| 国产亚洲精久久久久久无码77777| 三年片在线观看免费西瓜视频 | 久久久久亚洲Av片无码v| 91成年人免费视频| 亚洲AV成人精品一区二区三区| 国产精品V亚洲精品V日韩精品 | 亚洲首页国产精品丝袜| 免费大学生国产在线观看p| 中文在线观看免费网站| 亚洲精品国产福利在线观看| 久久精品视频免费播放| 亚洲人成77777在线播放网站不卡| 日本高清免费aaaaa大片视频| 久久久久久久久久久免费精品| 亚洲一级片免费看| 国产精品久久久久久久久免费|