AIGC動態歡迎閱讀
原標題:大模型“考生”數學全不及格!首個AI高考全卷評測結果出分
關鍵字:模型,教師,人工智能,能力,考生
文章來源:算法邦
內容字數:0字
內容摘要:
直播預告 | 6月25日晚7點,「智猩猩機器人新青年講座」第9講正式開講,UMass Amherst在讀博士周沁泓將直播講解《在具身智能模擬器中針對動態災害進行具身決策》,歡迎掃名~高考覆蓋各類學科及題型,同時因其開考前的“絕密性”,被視作中國最具權威的考試之一,成為評估考生綜合能力的“試金石”。這一面向人類設計的高難度綜合,目前普遍被研究者用于考察大模型的智能水平。
2024年全國高考甫一結束,司南評測體系OpenCompass選取6個開源模型及GPT-4o進行高考“語數外”全卷能力測試。評測采用全國新課標I卷,參與評測的所有開源模型,開源時間均早于高考,確保評測 “閉卷”性。同時,成績由具有高考評卷經驗的教師人工評判,更加接近真實閱卷標準。
首個大模型高考全卷評測結果顯示,Qwen2-72B、GPT-4o及書生·浦語2.0文曲星(InternLM2-20B-WQX)成為本次大模型高考的前三甲,得分率均超過70%。大部分模型“考生”語文、英語科目表現良好,但在數學方面還有很大的提升空間。其中,InternLM2-20B-WQX取得了數學單科的最高分,超越包括GPT-4o在內
原文鏈接:大模型“考生”數學全不及格!首個AI高考全卷評測結果出分
聯系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,聚焦生成式AI,重點關注模型與應用。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章

暫無評論...