原標題:人類最后一次考試,AI慘敗正確率<10%!數百頂級專家聯手出題,DeepSeek竟是王者
文章來源:新智元
內容字數:4344字
AI模型的終極挑戰:人類最后一次考試
Scale AI和Center for AI Safety (CAIS) 聯合發布了名為“人類最后一次考試”(Humanity’s Last Exam,簡稱 HLE)的全新AI基準測試,旨在評估當前最先進的大型語言模型(LLM)的真實能力。這項測試包含3000道涵蓋100多個學科的難題,由近1000名來自全球各地的專家精心設計,旨在突破現有基準測試的局限性。
測試設計與流程
HLE 采用精確匹配題和選擇題兩種題型,其中10% 的題目包含圖像和圖表等多模態內容。為了確保題目的高質量和難度,項目組設立了50萬美元的獎金池,吸引了超過70,000道試題的提交,最終經過嚴格篩選和專家評審,選取了3000道題目用于公開測試。此外,還保留了一部分私有測試集,用于檢測模型是否存在過擬合或作弊行為。
令人意外的結果
參與測試的7個頂尖LLM模型(包括GPT-40、Grok 2、Claude 3.5 Sonnect等)的準確率均低于10%,并且表現出過度自信的傾向。研究者發現,具備推理能力的模型需要消耗更多的計算資源和時間才能完成測試。
基準測試的意義與局限性
HLE 的推出旨在應對現有基準測試的不足,例如一些熱門基準測試的難度過低,甚至存在“漏題”問題。雖然 HLE 的高難度和廣泛的學科覆蓋范圍,更能有效評估 LLM 的能力,但它仍然只測試結構化的學術問題,無法評估模型的自主研究能力或創造性問題解決能力。因此,HLE 的高分并不能等同于模型具備通用人工智能(AGI)。
未來展望
盡管目前 LLM 在 HLE 中表現不佳,但考慮到AI技術快速發展的現狀,研究者預測,在2025年底之前,模型有可能在 HLE 上達到超過50% 的準確率。HLE 的出現為AI領域提供了新的評估標準,也為未來的AI發展方向提供了新的思考方向。這標志著AI發展進入一個新的階段,模型需要在更復雜、更接近人類認知能力的任務中接受挑戰。
總而言之,“人類最后一次考試”并非AI評估的終點,而是對現有技術水平的一次嚴峻考驗,也為未來AI發展指明了方向,推動著AI模型朝著更強大、更可靠的方向不斷進化。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。