MMLU-Pro基準測試數據集上線,含 12k 個跨學科復雜問題,難度提升,更具挑戰性!DeepSeek 數學模型一鍵部署
AIGC動態歡迎閱讀
原標題:MMLU-Pro基準測試數據集上線,含 12k 個跨學科復雜問題,難度提升,更具挑戰性!DeepSeek 數學模型一鍵部署
關鍵字:解讀,數據,模型,圖像,視頻
文章來源:HyperAI超神經
內容字數:0字
內容摘要:
在大語言模型 (LLM) 蓬勃發展的時代,諸如大規模多任務語言理解 (MMLU) 之類的基準測試,在推動 AI 于不同領域的語言理解與推理能力邁向極限方面,發揮著至關重要的關鍵作用。
然而,伴隨模型的持續改進與優化,LLM 在這些基準測試中的表現已經逐步趨于穩定,這使得區分不同模型能力的差異變得越來越困難。
為了更好地評估 LLM 的能力,滑鐵盧大學、多倫多大學和卡內基梅隆大學的研究人員聯合發布了 MMLU-Pro 數據集,整合了來自多個來源的問題,包括原始MMLU數據集、STEM網站、TheoremQA 和 SciBench 等。該數據集現已在 hyper.ai 提供下載,下拉文章獲取鏈接~
9 月 9 日-9 月 14 日,hyper.ai 官網更新速覽:
*優質公共數據集:10 個
* 優質教程精選:3 個
* 社區文章精選:4 篇
* 熱門百科詞條:5 條
* 9 月截稿頂會:3 個
訪問官網:hyper.ai給大家推薦一個線上學術分享活動,上海交通大學博士后周子宜將以「蛋白質語言模型的小樣本學習方法」為題,帶來干貨分享,點擊即可預約觀看??公共數據集精選1.MMLU-Pro
原文鏈接:MMLU-Pro基準測試數據集上線,含 12k 個跨學科復雜問題,難度提升,更具挑戰性!DeepSeek 數學模型一鍵部署
聯系作者
文章來源:HyperAI超神經
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...