13B模型全方位碾壓GPT-4?這背后有什么貓膩
AIGC動態(tài)歡迎閱讀
原標(biāo)題:13B模型全方位碾壓GPT-4?這背后有什么貓膩
關(guān)鍵字:樣本,基準(zhǔn),測試,本文,數(shù)據(jù)
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):5526字
內(nèi)容摘要:機(jī)器之心報道編輯:陳萍你的測試集信息在訓(xùn)練集中泄漏了嗎?一個參數(shù)量為 13B 的模型竟然打敗了頂流 GPT-4?就像下圖所展示的,并且為了確保結(jié)果的有效性,這項(xiàng)測試還遵循了 OpenAI 的數(shù)據(jù)去污方法,更關(guān)鍵的是沒有發(fā)現(xiàn)數(shù)據(jù)污染的證據(jù)。如果你細(xì)細(xì)查看圖中的模型,發(fā)現(xiàn)只要帶有「rephraser」這個單詞,模型性能都比較高。這背后到底有何貓膩?原來是數(shù)據(jù)污染了,即測試集信息在訓(xùn)練集中遭到泄漏,而且這種污染還不易被檢測到。盡管這一問題非常關(guān)鍵,但理解和檢測污染仍然是一個開放且具有挑戰(zhàn)性的難題。現(xiàn)階段,去污最常用的方法是 n-gram 重疊和嵌入相似性搜索:N-gram 重疊依賴于字符串匹配來檢測污染,是 GPT-4、PaLM 和 Llama-2 等模型常用方法;嵌入相似性搜索使用預(yù)訓(xùn)練模型(例如 BERT)的嵌入來查找相似且可能受到污染的示例。然而,來自 UC 伯克利、上海交通大學(xué)的研究表明…
原文鏈接:點(diǎn)此閱讀原文:13B模型全方位碾壓GPT-4?這背后有什么貓膩
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺