抵擋AI的最后一個基準(zhǔn)!CAIS發(fā)布50萬美元懸賞令:匯集人類頂尖專家,專攻高難度問題
AIGC動態(tài)歡迎閱讀
原標(biāo)題:抵擋AI的最后一個基準(zhǔn)!CAIS發(fā)布50萬美元懸賞令:匯集人類頂尖專家,專攻高難度問題
關(guān)鍵字:解讀,問題,報告,模型,基準(zhǔn)
文章來源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報道編輯:LRS
【新智元導(dǎo)讀】隨著AI模型的水平不斷提高,現(xiàn)有的基準(zhǔn)測試也被逐一攻破。CAIS和Scale AI共同發(fā)起了屬于人類的最后一搏,懸賞50萬美元,把最高難度、只有最頂尖的人才能回答出的問題收集起來作為基準(zhǔn),是否能擋住AI模型的攻勢?OpenAI最近發(fā)布的o1-preview可以說是再次震撼了整個大模型屆,在各個主流高難度基準(zhǔn)測試中都展現(xiàn)出了驚人的性能,甚至能在博士級別的科學(xué)問答環(huán)節(jié)上超越人類專家。
不過,o1模型的超強(qiáng)實力也帶來了一個問題:現(xiàn)有的基準(zhǔn)測試已經(jīng)無法評估模型的能力了,需要新的、更難的基準(zhǔn)。
最近,Scale AI與CAIS(人工智能安全中心,Center for AI Safety)計劃合作推出Humanity’s Last Exam (人類的最終測驗),號稱將要構(gòu)建大型語言模型屆最難的開源基準(zhǔn);此前CAIS發(fā)布的MMLU目前仍然是Huggingface社區(qū)中下載次數(shù)最多的基準(zhǔn)數(shù)據(jù)集。
兩個機(jī)構(gòu)總共籌集了50萬來收集「有史以來最難、最廣泛的」問題,面向所有人類專家來收集那些尖銳的問題,以將人工智能模型推向極限:前50個被選中的問題,每題將獲得5000美
原文鏈接:抵擋AI的最后一個基準(zhǔn)!CAIS發(fā)布50萬美元懸賞令:匯集人類頂尖專家,專攻高難度問題
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介: