13B模型全方位碾壓GPT-4?這背后有什么貓膩
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:13B模型全方位碾壓GPT-4?這背后有什么貓膩
關(guān)鍵字:樣本,基準(zhǔn),測(cè)試,本文,數(shù)據(jù)
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):5526字
內(nèi)容摘要:機(jī)器之心報(bào)道編輯:陳萍你的測(cè)試集信息在訓(xùn)練集中泄漏了嗎?一個(gè)參數(shù)量為 13B 的模型竟然打敗了頂流 GPT-4?就像下圖所展示的,并且為了確保結(jié)果的有效性,這項(xiàng)測(cè)試還遵循了 OpenAI 的數(shù)據(jù)去污方法,更關(guān)鍵的是沒(méi)有發(fā)現(xiàn)數(shù)據(jù)污染的證據(jù)。如果你細(xì)細(xì)查看圖中的模型,發(fā)現(xiàn)只要帶有「rephraser」這個(gè)單詞,模型性能都比較高。這背后到底有何貓膩?原來(lái)是數(shù)據(jù)污染了,即測(cè)試集信息在訓(xùn)練集中遭到泄漏,而且這種污染還不易被檢測(cè)到。盡管這一問(wèn)題非常關(guān)鍵,但理解和檢測(cè)污染仍然是一個(gè)開(kāi)放且具有挑戰(zhàn)性的難題。現(xiàn)階段,去污最常用的方法是 n-gram 重疊和嵌入相似性搜索:N-gram 重疊依賴于字符串匹配來(lái)檢測(cè)污染,是 GPT-4、PaLM 和 Llama-2 等模型常用方法;嵌入相似性搜索使用預(yù)訓(xùn)練模型(例如 BERT)的嵌入來(lái)查找相似且可能受到污染的示例。然而,來(lái)自 UC 伯克利、上海交通大學(xué)的研究表明…
原文鏈接:點(diǎn)此閱讀原文:13B模型全方位碾壓GPT-4?這背后有什么貓膩
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)