一秒偵破大模型“高分低能”:賈佳亞團(tuán)隊聯(lián)手劍橋清華等共推評測新范式
AIGC動態(tài)歡迎閱讀
原標(biāo)題:一秒偵破大模型“高分低能”:賈佳亞團(tuán)隊聯(lián)手劍橋清華等共推評測新范式
關(guān)鍵字:模型,余數(shù),步驟,華為,字節(jié)跳動
文章來源:AI前線
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
作者 | MR-Ben 團(tuán)隊
顛覆過往大模型評測標(biāo)準(zhǔn),最新、最全、最權(quán)威的測評數(shù)據(jù)集 MR-Ben 來了!
這是繼今年 4 月發(fā)布堪稱 GPT-4 + DALL- E-3 的王炸產(chǎn)品超強視覺語言模型 Mini-Gemini 后,港中文賈佳亞團(tuán)隊再次提出的極具代表性的作品。在 MR-Ben 的“監(jiān)督”下,大模型不僅要像學(xué)生那樣會答題,還要像老師那樣會閱卷,真實的推理能力無所遁形。
MR-Ben 細(xì)致地評測了不少國內(nèi)外一線的開源和閉源模型,如 GPT4-Turbo、Cluade3.5-Sonnet、Mistral-Large、Zhipu-GLM4、Moonshot-v1、Yi-Large、Qwen2-70B、Deepseek-V2 等,并進(jìn)行了詳盡的分析。
哪些看似美麗的大模型會被“卸妝”,哪個模型地表最強?目前該工作所有代碼和數(shù)據(jù)均已開源,一起來看看!
Project Page: https://randolph-zeng.github.io/Mr-Ben.github.io/
Arxiv Page: https://arxiv.org/abs/2406.13975
Github Re
原文鏈接:一秒偵破大模型“高分低能”:賈佳亞團(tuán)隊聯(lián)手劍橋清華等共推評測新范式
聯(lián)系作者
文章來源:AI前線
作者微信:
作者簡介: