大模型性能摻水嚴(yán)重？北大交出答卷：交互評(píng)估+動(dòng)態(tài)出題，死記硬背也沒(méi)用 | ACL 2024

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：大模型性能摻水嚴(yán)重？北大交出答卷：交互評(píng)估+動(dòng)態(tài)出題，死記硬背也沒(méi)用 | ACL 2024
關(guān)鍵字：模型,數(shù)據(jù),方法,知識(shí),高效
文章來(lái)源：新智元
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

新智元報(bào)道編輯：LRS
【新智元導(dǎo)讀】當(dāng)前大語(yǔ)言模型（LLM）的評(píng)估方法受到數(shù)據(jù)污染問(wèn)題的影響，導(dǎo)致評(píng)估結(jié)果被高估，無(wú)法準(zhǔn)確反映模型的真實(shí)能力。北京大學(xué)等提出的KIEval框架，通過(guò)知識(shí)基礎(chǔ)的交互式評(píng)估，克服了數(shù)據(jù)污染的影響，更全面地評(píng)估了模型在知識(shí)理解和應(yīng)用方面的能力。當(dāng)人工智能領(lǐng)域被GPT-4、Claude 3等大語(yǔ)言模型的驚人表現(xiàn)所震撼時(shí)，一個(gè)關(guān)鍵問(wèn)題悄然浮現(xiàn)：我們是否真的客觀評(píng)估了這些模型的能力？事實(shí)上，當(dāng)前大模型的評(píng)估正面臨著數(shù)據(jù)污染的陰霾。
數(shù)據(jù)污染，即模型在訓(xùn)練過(guò)程中接觸到評(píng)測(cè)基準(zhǔn)的測(cè)試集數(shù)據(jù)，導(dǎo)致其在自動(dòng)評(píng)測(cè)基準(zhǔn)的表現(xiàn)被高估。這一問(wèn)題在業(yè)界尚未得到充分重視。許多大模型的訓(xùn)練數(shù)據(jù)來(lái)源復(fù)雜，難以完全避免測(cè)試數(shù)據(jù)以及答案的泄露。
一些模型甚至直接在測(cè)試集上進(jìn)行訓(xùn)練，以獲得更高的評(píng)估分?jǐn)?shù)。這不僅人為地夸大了模型的性能，也可能誤導(dǎo)相關(guān)研究的方向。
面對(duì)數(shù)據(jù)污染問(wèn)題，盡管已有工作提出基于同分布數(shù)據(jù)困惑度平均差值[1]以及模型輸出的log-likelihood分布特征[2]檢測(cè)大模型數(shù)據(jù)污染情況的存在性，但這些方法應(yīng)用場(chǎng)景和實(shí)際效果受限，特別是難以檢測(cè)大模型在SFT階段的數(shù)據(jù)泄露問(wèn)

原文鏈接：大模型性能摻水嚴(yán)重？北大交出答卷：交互評(píng)估+動(dòng)態(tài)出題，死記硬背也沒(méi)用 | ACL 2024

聯(lián)系作者

文章來(lái)源：新智元
作者微信：AI_era
作者簡(jiǎn)介：智能+中國(guó)主平臺(tái)，致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展，關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類(lèi)社會(huì)與文明進(jìn)化的影響，領(lǐng)航中國(guó)新智能時(shí)代。

閱讀原文