<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        大模型性能摻水嚴(yán)重?北大交出答卷:交互評(píng)估+動(dòng)態(tài)出題,死記硬背也沒(méi)用 | ACL 2024

        AIGC動(dòng)態(tài)10個(gè)月前發(fā)布 新智元
        870 0 0

        大模型性能摻水嚴(yán)重?北大交出答卷:交互評(píng)估+動(dòng)態(tài)出題,死記硬背也沒(méi)用 | ACL 2024

        AIGC動(dòng)態(tài)歡迎閱讀

        原標(biāo)題:大模型性能摻水嚴(yán)重?北大交出答卷:交互評(píng)估+動(dòng)態(tài)出題,死記硬背也沒(méi)用 | ACL 2024
        關(guān)鍵字:模型,數(shù)據(jù),方法,知識(shí),高效
        文章來(lái)源:新智元
        內(nèi)容字?jǐn)?shù):0字

        內(nèi)容摘要:


        新智元報(bào)道編輯:LRS
        【新智元導(dǎo)讀】當(dāng)前大語(yǔ)言模型(LLM)的評(píng)估方法受到數(shù)據(jù)污染問(wèn)題的影響,導(dǎo)致評(píng)估結(jié)果被高估,無(wú)法準(zhǔn)確反映模型的真實(shí)能力。北京大學(xué)等提出的KIEval框架,通過(guò)知識(shí)基礎(chǔ)的交互式評(píng)估,克服了數(shù)據(jù)污染的影響,更全面地評(píng)估了模型在知識(shí)理解和應(yīng)用方面的能力。當(dāng)人工智能領(lǐng)域被GPT-4、Claude 3等大語(yǔ)言模型的驚人表現(xiàn)所震撼時(shí),一個(gè)關(guān)鍵問(wèn)題悄然浮現(xiàn):我們是否真的客觀評(píng)估了這些模型的能力?事實(shí)上,當(dāng)前大模型的評(píng)估正面臨著數(shù)據(jù)污染的陰霾。
        數(shù)據(jù)污染,即模型在訓(xùn)練過(guò)程中接觸到評(píng)測(cè)基準(zhǔn)的測(cè)試集數(shù)據(jù),導(dǎo)致其在自動(dòng)評(píng)測(cè)基準(zhǔn)的表現(xiàn)被高估。這一問(wèn)題在業(yè)界尚未得到充分重視。許多大模型的訓(xùn)練數(shù)據(jù)來(lái)源復(fù)雜,難以完全避免測(cè)試數(shù)據(jù)以及答案的泄露。
        一些模型甚至直接在測(cè)試集上進(jìn)行訓(xùn)練,以獲得更高的評(píng)估分?jǐn)?shù)。這不僅人為地夸大了模型的性能,也可能誤導(dǎo)相關(guān)研究的方向。
        面對(duì)數(shù)據(jù)污染問(wèn)題,盡管已有工作提出基于同分布數(shù)據(jù)困惑度平均差值[1]以及模型輸出的log-likelihood分布特征[2]檢測(cè)大模型數(shù)據(jù)污染情況的存在性,但這些方法應(yīng)用場(chǎng)景和實(shí)際效果受限,特別是難以檢測(cè)大模型在SFT階段的數(shù)據(jù)泄露問(wèn)


        原文鏈接:大模型性能摻水嚴(yán)重?北大交出答卷:交互評(píng)估+動(dòng)態(tài)出題,死記硬背也沒(méi)用 | ACL 2024

        聯(lián)系作者

        文章來(lái)源:新智元
        作者微信:AI_era
        作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類(lèi)社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。

        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無(wú)評(píng)論

        暫無(wú)評(píng)論...
        主站蜘蛛池模板: 免费av片在线观看网站| 国产精品免费视频网站| 久久久久亚洲国产| 亚洲精品成人久久| 免费少妇a级毛片| 国产免费av一区二区三区| 久草免费福利视频| 日韩免费电影网址| 免费无码毛片一区二区APP| 777爽死你无码免费看一二区| 国产产在线精品亚洲AAVV| 91亚洲精品自在在线观看| 亚洲国产综合精品| 亚洲中文字幕乱码熟女在线| 亚洲欧美国产国产一区二区三区| 亚洲精品无码专区久久| 亚洲国产av玩弄放荡人妇| 久久精品国产亚洲av麻豆小说 | 在线看片免费人成视频久网下载| 成人无码视频97免费| 色婷婷六月亚洲综合香蕉| 亚洲在成人网在线看| 亚洲精品无码mⅴ在线观看| 99亚洲男女激情在线观看| 日韩a毛片免费观看| 国产在线观看无码免费视频| 国产成人精品免费久久久久| 亚洲一级毛片免费看| 蜜桃精品免费久久久久影院| 亚洲AV中文无码乱人伦在线视色| 亚洲精品无码MV在线观看| 亚洲欧洲精品视频在线观看| 亚洲熟妇自偷自拍另欧美| 夜夜爽妓女8888视频免费观看| 亚洲国产成人无码AV在线| 免费一区二区三区在线视频| 两个人看的www免费视频| 男女超爽刺激视频免费播放 | a级毛片视频免费观看| 亚洲一级免费视频| 国产自产拍精品视频免费看|