AIGC動態歡迎閱讀
原標題:13B模型全方位碾壓GPT-4?這背后有什么貓膩
文章來源:機器之心
內容字數:5526字
內容摘要:機器之心報道編輯:陳萍你的測試集信息在訓練集中泄漏了嗎?一個參數量為 13B 的模型竟然打敗了頂流 GPT-4?就像下圖所展示的,并且為了確保結果的有效性,這項測試還遵循了 OpenAI 的數據去污方法,更關鍵的是沒有發現數據污染的證據。如果你細細查看圖中的模型,發現只要帶有「rephraser」這個單詞,模型性能都比較高。這背后到底有何貓膩?原來是數據污染了,即測試集信息在訓練集中遭到泄漏,而且這種污染還不易被檢測到。盡管這一問題非常關鍵,但理解和檢測污染仍然是一個開放且具有挑戰性的難題。現階段,去污最常用的方法是 n-gram 重疊和嵌入相似性搜索:N-gram 重疊依賴于字符串匹配來檢測污染,是 GPT-4、PaLM 和 Llama-2 等模型常用方法;嵌入相似性搜索使用預訓練模型(例如 BERT)的嵌入來查找相似且可能受到污染的示例。然而,來自 UC 伯克利、上海交通大學的研究表明…
原文鏈接:點此閱讀原文:13B模型全方位碾壓GPT-4?這背后有什么貓膩
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...