大模型“考生”數學全不及格！首個AI高考全卷評測結果出分

AIGC動態1年前 (2024)發布算法邦

AIGC動態歡迎閱讀

原標題：大模型“考生”數學全不及格！首個AI高考全卷評測結果出分
關鍵字：模型,教師,人工智能,能力,考生
文章來源：算法邦
內容字數：0字

內容摘要：

直播預告 | 6月25日晚7點，「智猩猩機器人新青年講座」第9講正式開講，UMass Amherst在讀博士周沁泓將直播講解《在具身智能模擬器中針對動態災害進行具身決策》，歡迎掃名~高考覆蓋各類學科及題型，同時因其開考前的“絕密性”，被視作中國最具權威的考試之一，成為評估考生綜合能力的“試金石”。這一面向人類設計的高難度綜合，目前普遍被研究者用于考察大模型的智能水平。
2024年全國高考甫一結束，司南評測體系OpenCompass選取6個開源模型及GPT-4o進行高考“語數外”全卷能力測試。評測采用全國新課標I卷，參與評測的所有開源模型，開源時間均早于高考，確保評測 “閉卷”性。同時，成績由具有高考評卷經驗的教師人工評判，更加接近真實閱卷標準。
首個大模型高考全卷評測結果顯示，Qwen2-72B、GPT-4o及書生·浦語2.0文曲星（InternLM2-20B-WQX）成為本次大模型高考的前三甲，得分率均超過70%。大部分模型“考生”語文、英語科目表現良好，但在數學方面還有很大的提升空間。其中，InternLM2-20B-WQX取得了數學單科的最高分，超越包括GPT-4o在內

原文鏈接：大模型“考生”數學全不及格！首個AI高考全卷評測結果出分