別讓大模型被基準評估坑了!測試集亂入預訓練,分數(shù)虛高,模型變傻

AIGC動態(tài)歡迎閱讀
原標題:別讓大模型被基準評估坑了!測試集亂入預訓練,分數(shù)虛高,模型變傻
關(guān)鍵字:報告,模型,基準,數(shù)據(jù),測試
文章來源:量子位
內(nèi)容字數(shù):4437字
內(nèi)容摘要:明敏 發(fā)自 凹非寺量子位 | 公眾號 QbitAI“別讓大模型被基準評估給坑了”。這是一項最新研究的題目,來自人民大學信息學院、高瓴人工智能學院和伊利諾伊大學厄巴納-香檳分校。研究發(fā)現(xiàn),基準測試中相關(guān)數(shù)據(jù)意外被用于模型訓練的現(xiàn)象,變得越來越常見了。因為預訓練語料中包含很多公開文本資料,而評估基準也建立在這些信息之上,本來這種情況就在所難免。現(xiàn)在隨著大模型試圖搜集更多公開數(shù)據(jù),問題正在加重。要知道,…
原文鏈接:點此閱讀原文:別讓大模型被基準評估坑了!測試集亂入預訓練,分數(shù)虛高,模型變傻
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...

粵公網(wǎng)安備 44011502001135號