MMLU-Pro基準測試數(shù)據(jù)集上線,含 12k 個跨學(xué)科復(fù)雜問題,難度提升,更具挑戰(zhàn)性!DeepSeek 數(shù)學(xué)模型一鍵部署
AIGC動態(tài)歡迎閱讀
原標題:MMLU-Pro基準測試數(shù)據(jù)集上線,含 12k 個跨學(xué)科復(fù)雜問題,難度提升,更具挑戰(zhàn)性!DeepSeek 數(shù)學(xué)模型一鍵部署
關(guān)鍵字:解讀,數(shù)據(jù),模型,圖像,視頻
文章來源:HyperAI超神經(jīng)
內(nèi)容字數(shù):0字
內(nèi)容摘要:
在大語言模型 (LLM) 蓬勃發(fā)展的時代,諸如大規(guī)模多任務(wù)語言理解 (MMLU) 之類的基準測試,在推動 AI 于不同領(lǐng)域的語言理解與推理能力邁向極限方面,發(fā)揮著至關(guān)重要的關(guān)鍵作用。
然而,伴隨模型的持續(xù)改進與優(yōu)化,LLM 在這些基準測試中的表現(xiàn)已經(jīng)逐步趨于穩(wěn)定,這使得區(qū)分不同模型能力的差異變得越來越困難。
為了更好地評估 LLM 的能力,滑鐵盧大學(xué)、多倫多大學(xué)和卡內(nèi)基梅隆大學(xué)的研究人員聯(lián)合發(fā)布了 MMLU-Pro 數(shù)據(jù)集,整合了來自多個來源的問題,包括原始MMLU數(shù)據(jù)集、STEM網(wǎng)站、TheoremQA 和 SciBench 等。該數(shù)據(jù)集現(xiàn)已在 hyper.ai 提供下載,下拉文章獲取鏈接~
9 月 9 日-9 月 14 日,hyper.ai 官網(wǎng)更新速覽:
*優(yōu)質(zhì)公共數(shù)據(jù)集:10 個
* 優(yōu)質(zhì)教程精選:3 個
* 社區(qū)文章精選:4 篇
* 熱門百科詞條:5 條
* 9 月截稿頂會:3 個
訪問官網(wǎng):hyper.ai給大家推薦一個線上學(xué)術(shù)分享活動,上海交通大學(xué)博士后周子宜將以「蛋白質(zhì)語言模型的小樣本學(xué)習(xí)方法」為題,帶來干貨分享,點擊即可預(yù)約觀看??公共數(shù)據(jù)集精選1.MMLU-Pro
原文鏈接:MMLU-Pro基準測試數(shù)據(jù)集上線,含 12k 個跨學(xué)科復(fù)雜問題,難度提升,更具挑戰(zhàn)性!DeepSeek 數(shù)學(xué)模型一鍵部署
聯(lián)系作者
文章來源:HyperAI超神經(jīng)
作者微信:
作者簡介: