專治大模型“刷題”！賈佳亞團隊新基準讓模型只挑錯不做題，GPT-4得分不到50

AIGC動態1年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：專治大模型“刷題”！賈佳亞團隊新基準讓模型只挑錯不做題，GPT-4得分不到50
關鍵字：模型,數據,團隊,方式,測試
文章來源：量子位
內容字數：0字

內容摘要：

MR-Ben團隊投稿量子位 | 公眾號 QbitAI大模型測試能拿高分，實際場景中卻表現不佳的問題有解了。
賈佳亞團隊聯合多家知名高校提出了一種全新的測評方法，讓一些模型立馬現出了原型。
這下不用擔心大模型“刷題”太多，測試集無法體現真實水平了。
這個新的測評數據集叫做MR-Ben，利用的是GSM8K、MMLU等數據集中的現有題目。
只不過，大模型在測試中的身份從“答題學生”變成了“閱卷老師”，任務是要給已有的解答步驟指出錯誤。
這樣一來，模型無法再通過背誦或猜測撞對題目，測試題泄露也無需擔心了。
利用MR-Ben，賈佳亞團隊評測了GPT4-Turbo、Cluade3.5-Sonnet、GLM4、Qwen2-70B等許多開源和閉源模型。
目前，該數據集涉及的所有代碼和數據均已開源。
熟悉的試題，全新的任務目前，大模型測試的主流方向是使用人類的標準化考試——選擇題和填空題的方式去進行大模型評測。
這套測試方式的優點是標準明確、指標直觀，且量化結果天然具有話題性。
但作者認為，由于現在的大模型普遍采用逐步作答的思維鏈方式生成最終答案，導致這種方式并不“靠譜”。
預訓練模型在預訓練時早已見

原文鏈接：專治大模型“刷題”！賈佳亞團隊新基準讓模型只挑錯不做題，GPT-4得分不到50

聯系作者

文章來源：量子位
作者微信：
作者簡介：

閱讀原文

# AIGC動態 # 團隊 # 數據 # 方式 # 模型 # 測試

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

專治大模型“刷題”！賈佳亞團隊新基準讓模型只挑錯不做題，GPT-4得分不到50

AIGC動態歡迎閱讀

內容摘要：

聯系作者

只激活3.8B參數，性能比肩同款7B模型！訓練微調都能用，來自微軟

專訪生成式AI之父Schmidhuber：錯失圖靈獎之后｜甲子光年

相關文章

暫無評論

ChatGPT

玩虛擬模特？

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

專治大模型“刷題”！賈佳亞團隊新基準讓模型只挑錯不做題，GPT-4得分不到50

AIGC動態歡迎閱讀

內容摘要：

聯系作者

只激活3.8B參數，性能比肩同款7B模型！訓練微調都能用，來自微軟

專訪生成式AI之父Schmidhuber：錯失圖靈獎之后｜甲子光年

相關文章

暫無評論

ChatGPT

玩虛擬模特？

專治大模型“刷題”！賈佳亞團隊新基準讓模型只挑錯不做題，GPT-4得分不到50

只激活3.8B參數，性能比肩同款7B模型！訓練微調都能用，來自微軟