抵擋AI的最后一個基準！CAIS發布50萬美元懸賞令：匯集人類頂尖專家，專攻高難度問題

AIGC動態1年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：抵擋AI的最后一個基準！CAIS發布50萬美元懸賞令：匯集人類頂尖專家，專攻高難度問題
關鍵字：解讀,問題,報告,模型,基準
文章來源：新智元
內容字數：0字

內容摘要：

新智元報道編輯：LRS
【新智元導讀】隨著AI模型的水平不斷提高，現有的基準測試也被逐一攻破。CAIS和Scale AI共同發起了屬于人類的最后一搏，懸賞50萬美元，把最高難度、只有最頂尖的人才能回答出的問題收集起來作為基準，是否能擋住AI模型的攻勢？OpenAI最近發布的o1-preview可以說是再次震撼了整個大模型屆，在各個主流高難度基準測試中都展現出了驚人的性能，甚至能在博士級別的科學問答環節上超越人類專家。
不過，o1模型的超強實力也帶來了一個問題：現有的基準測試已經無法評估模型的能力了，需要新的、更難的基準。
最近，Scale AI與CAIS（人工智能安全中心，Center for AI Safety）計劃合作推出Humanity’s Last Exam （人類的最終測驗），號稱將要構建大型語言模型屆最難的開源基準；此前CAIS發布的MMLU目前仍然是Huggingface社區中下載次數最多的基準數據集。
兩個機構總共籌集了50萬來收集「有史以來最難、最廣泛的」問題，面向所有人類專家來收集那些尖銳的問題，以將人工智能模型推向極限：前50個被選中的問題，每題將獲得5000美

原文鏈接：抵擋AI的最后一個基準！CAIS發布50萬美元懸賞令：匯集人類頂尖專家，專攻高難度問題