13B模型全方位碾壓GPT-4？這背后有什么貓膩

AIGC動(dòng)態(tài)2年前 (2023)發(fā)布機(jī)器之心

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：13B模型全方位碾壓GPT-4？這背后有什么貓膩

關(guān)鍵字：樣本,基準(zhǔn),測(cè)試,本文,數(shù)據(jù)

文章來(lái)源：機(jī)器之心

內(nèi)容字?jǐn)?shù)：5526字

內(nèi)容摘要：機(jī)器之心報(bào)道編輯：陳萍你的測(cè)試集信息在訓(xùn)練集中泄漏了嗎？一個(gè)參數(shù)量為 13B 的模型竟然打敗了頂流 GPT-4？就像下圖所展示的，并且為了確保結(jié)果的有效性，這項(xiàng)測(cè)試還遵循了 OpenAI 的數(shù)據(jù)去污方法，更關(guān)鍵的是沒(méi)有發(fā)現(xiàn)數(shù)據(jù)污染的證據(jù)。如果你細(xì)細(xì)查看圖中的模型，發(fā)現(xiàn)只要帶有「rephraser」這個(gè)單詞，模型性能都比較高。這背后到底有何貓膩？原來(lái)是數(shù)據(jù)污染了，即測(cè)試集信息在訓(xùn)練集中遭到泄漏，而且這種污染還不易被檢測(cè)到。盡管這一問(wèn)題非常關(guān)鍵，但理解和檢測(cè)污染仍然是一個(gè)開(kāi)放且具有挑戰(zhàn)性的難題。現(xiàn)階段，去污最常用的方法是 n-gram 重疊和嵌入相似性搜索：N-gram 重疊依賴于字符串匹配來(lái)檢測(cè)污染，是 GPT-4、PaLM 和 Llama-2 等模型常用方法；嵌入相似性搜索使用預(yù)訓(xùn)練模型（例如 BERT）的嵌入來(lái)查找相似且可能受到污染的示例。然而，來(lái)自 UC 伯克利、上海交通大學(xué)的研究表明…

原文鏈接：點(diǎn)此閱讀原文：13B模型全方位碾壓GPT-4？這背后有什么貓膩