AIGC動態歡迎閱讀
原標題:專治大模型“刷題”!賈佳亞團隊新基準讓模型只挑錯不做題,GPT-4得分不到50
關鍵字:模型,數據,團隊,方式,測試
文章來源:量子位
內容字數:0字
內容摘要:
MR-Ben團隊 投稿量子位 | 公眾號 QbitAI大模型測試能拿高分,實際場景中卻表現不佳的問題有解了。
賈佳亞團隊聯合多家知名高校提出了一種全新的測評方法,讓一些模型立馬現出了原型。
這下不用擔心大模型“刷題”太多,測試集無法體現真實水平了。
這個新的測評數據集叫做MR-Ben,利用的是GSM8K、MMLU等數據集中的現有題目。
只不過,大模型在測試中的身份從“答題學生”變成了“閱卷老師”,任務是要給已有的解答步驟指出錯誤。
這樣一來,模型無法再通過背誦或猜測撞對題目,測試題泄露也無需擔心了。
利用MR-Ben,賈佳亞團隊評測了GPT4-Turbo、Cluade3.5-Sonnet、GLM4、Qwen2-70B等許多開源和閉源模型。
目前,該數據集涉及的所有代碼和數據均已開源。
熟悉的試題,全新的任務目前,大模型測試的主流方向是使用人類的標準化考試——選擇題和填空題的方式去進行大模型評測。
這套測試方式的優點是標準明確、指標直觀,且量化結果天然具有話題性。
但作者認為,由于現在的大模型普遍采用逐步作答的思維鏈方式生成最終答案,導致這種方式并不“靠譜”。
預訓練模型在預訓練時早已見
原文鏈接:專治大模型“刷題”!賈佳亞團隊新基準讓模型只挑錯不做題,GPT-4得分不到50
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...