別讓大模型被基準(zhǔn)評(píng)估坑了!測(cè)試集亂入預(yù)訓(xùn)練,分?jǐn)?shù)虛高,模型變傻
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:別讓大模型被基準(zhǔn)評(píng)估坑了!測(cè)試集亂入預(yù)訓(xùn)練,分?jǐn)?shù)虛高,模型變傻
關(guān)鍵字:報(bào)告,模型,基準(zhǔn),數(shù)據(jù),測(cè)試
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):4437字
內(nèi)容摘要:明敏 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI“別讓大模型被基準(zhǔn)評(píng)估給坑了”。這是一項(xiàng)最新研究的題目,來(lái)自人民大學(xué)信息學(xué)院、高瓴人工智能學(xué)院和伊利諾伊大學(xué)厄巴納-香檳分校。研究發(fā)現(xiàn),基準(zhǔn)測(cè)試中相關(guān)數(shù)據(jù)意外被用于模型訓(xùn)練的現(xiàn)象,變得越來(lái)越常見(jiàn)了。因?yàn)轭A(yù)訓(xùn)練語(yǔ)料中包含很多公開(kāi)文本資料,而評(píng)估基準(zhǔn)也建立在這些信息之上,本來(lái)這種情況就在所難免。現(xiàn)在隨著大模型試圖搜集更多公開(kāi)數(shù)據(jù),問(wèn)題正在加重。要知道,…
原文鏈接:點(diǎn)此閱讀原文:別讓大模型被基準(zhǔn)評(píng)估坑了!測(cè)試集亂入預(yù)訓(xùn)練,分?jǐn)?shù)虛高,模型變傻
聯(lián)系作者
文章來(lái)源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無(wú)評(píng)論...