大模型性能摻水嚴(yán)重?北大交出答卷:交互評(píng)估+動(dòng)態(tài)出題,死記硬背也沒(méi)用 | ACL 2024
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:大模型性能摻水嚴(yán)重?北大交出答卷:交互評(píng)估+動(dòng)態(tài)出題,死記硬背也沒(méi)用 | ACL 2024
關(guān)鍵字:模型,數(shù)據(jù),方法,知識(shí),高效
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報(bào)道編輯:LRS
【新智元導(dǎo)讀】當(dāng)前大語(yǔ)言模型(LLM)的評(píng)估方法受到數(shù)據(jù)污染問(wèn)題的影響,導(dǎo)致評(píng)估結(jié)果被高估,無(wú)法準(zhǔn)確反映模型的真實(shí)能力。北京大學(xué)等提出的KIEval框架,通過(guò)知識(shí)基礎(chǔ)的交互式評(píng)估,克服了數(shù)據(jù)污染的影響,更全面地評(píng)估了模型在知識(shí)理解和應(yīng)用方面的能力。當(dāng)人工智能領(lǐng)域被GPT-4、Claude 3等大語(yǔ)言模型的驚人表現(xiàn)所震撼時(shí),一個(gè)關(guān)鍵問(wèn)題悄然浮現(xiàn):我們是否真的客觀評(píng)估了這些模型的能力?事實(shí)上,當(dāng)前大模型的評(píng)估正面臨著數(shù)據(jù)污染的陰霾。
數(shù)據(jù)污染,即模型在訓(xùn)練過(guò)程中接觸到評(píng)測(cè)基準(zhǔn)的測(cè)試集數(shù)據(jù),導(dǎo)致其在自動(dòng)評(píng)測(cè)基準(zhǔn)的表現(xiàn)被高估。這一問(wèn)題在業(yè)界尚未得到充分重視。許多大模型的訓(xùn)練數(shù)據(jù)來(lái)源復(fù)雜,難以完全避免測(cè)試數(shù)據(jù)以及答案的泄露。
一些模型甚至直接在測(cè)試集上進(jìn)行訓(xùn)練,以獲得更高的評(píng)估分?jǐn)?shù)。這不僅人為地夸大了模型的性能,也可能誤導(dǎo)相關(guān)研究的方向。
面對(duì)數(shù)據(jù)污染問(wèn)題,盡管已有工作提出基于同分布數(shù)據(jù)困惑度平均差值[1]以及模型輸出的log-likelihood分布特征[2]檢測(cè)大模型數(shù)據(jù)污染情況的存在性,但這些方法應(yīng)用場(chǎng)景和實(shí)際效果受限,特別是難以檢測(cè)大模型在SFT階段的數(shù)據(jù)泄露問(wèn)
原文鏈接:大模型性能摻水嚴(yán)重?北大交出答卷:交互評(píng)估+動(dòng)態(tài)出題,死記硬背也沒(méi)用 | ACL 2024
聯(lián)系作者
文章來(lái)源:新智元
作者微信:AI_era
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類(lèi)社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。