AIGC動態歡迎閱讀
原標題:一招分辨刷榜作弊大模型,博士小哥開源AI數學“照妖鏡”
文章來源:量子位
內容字數:3949字
內容摘要:夢晨 發自 凹非寺量子位 | 公眾號 QbitAI如今很多大模型都聲稱擅長數學,誰有真才實學?誰是靠背測試題“作弊”的?有人在今年剛剛公布題目的匈牙利全國數學期末考試上做了一把全面測試。很多模型一下子就“現原形”了。先看綠色部分,這些大模型在經典數學測試集GSM8k和全新卷子上取得的成績差不多,共同組成參照標準。再看紅色部分,在GSM8K上的成績顯著高于同參數規模的大模型,一到全新卷子上成績卻明顯…
原文鏈接:點此閱讀原文:一招分辨刷榜作弊大模型,博士小哥開源AI數學“照妖鏡”
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...