大模型“考生”數(shù)學(xué)全不及格!首個(gè)AI高考全卷評(píng)測(cè)結(jié)果出分
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:大模型“考生”數(shù)學(xué)全不及格!首個(gè)AI高考全卷評(píng)測(cè)結(jié)果出分
關(guān)鍵字:模型,教師,人工智能,能力,考生
文章來源:算法邦
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
直播預(yù)告 | 6月25日晚7點(diǎn),「智猩猩機(jī)器人新青年講座」第9講正式開講,UMass Amherst在讀博士周沁泓將直播講解《在具身智能模擬器中針對(duì)動(dòng)態(tài)災(zāi)害進(jìn)行具身決策》,歡迎掃名~高考覆蓋各類學(xué)科及題型,同時(shí)因其開考前的“絕密性”,被視作中國(guó)最具權(quán)威的考試之一,成為評(píng)估考生綜合能力的“試金石”。這一面向人類設(shè)計(jì)的高難度綜合,目前普遍被研究者用于考察大模型的智能水平。
2024年全國(guó)高考甫一結(jié)束,司南評(píng)測(cè)體系OpenCompass選取6個(gè)開源模型及GPT-4o進(jìn)行高考“語數(shù)外”全卷能力測(cè)試。評(píng)測(cè)采用全國(guó)新課標(biāo)I卷,參與評(píng)測(cè)的所有開源模型,開源時(shí)間均早于高考,確保評(píng)測(cè) “閉卷”性。同時(shí),成績(jī)由具有高考評(píng)卷經(jīng)驗(yàn)的教師人工評(píng)判,更加接近真實(shí)閱卷標(biāo)準(zhǔn)。
首個(gè)大模型高考全卷評(píng)測(cè)結(jié)果顯示,Qwen2-72B、GPT-4o及書生·浦語2.0文曲星(InternLM2-20B-WQX)成為本次大模型高考的前三甲,得分率均超過70%。大部分模型“考生”語文、英語科目表現(xiàn)良好,但在數(shù)學(xué)方面還有很大的提升空間。其中,InternLM2-20B-WQX取得了數(shù)學(xué)單科的最高分,超越包括GPT-4o在內(nèi)
原文鏈接:大模型“考生”數(shù)學(xué)全不及格!首個(gè)AI高考全卷評(píng)測(cè)結(jié)果出分
聯(lián)系作者
文章來源:算法邦
作者微信:allplusai
作者簡(jiǎn)介:智猩猩矩陣賬號(hào)之一,聚焦生成式AI,重點(diǎn)關(guān)注模型與應(yīng)用。