終于有人調查了小模型過擬合：三分之二都有數據污染，微軟Phi-3、Mixtral 8x22B被點名

AIGC動態2年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：終于有人調查了小模型過擬合：三分之二都有數據污染，微軟Phi-3、Mixtral 8x22B被點名
關鍵字：模型,數據,研究者,基準,問題
文章來源：機器之心
內容字數：9050字

內容摘要：

機器之心報道
編輯：佳琪、蛋醬當前最火的大模型，竟然三分之二都存在過擬合問題？
剛剛出爐的一項研究，讓領域內的許多研究者有點意外。提高大型語言模型的推理能力是當前研究的最重要方向之一，而在這類任務中，近期發布的很多小模型看起來表現不錯，比如微軟 Phi-3、Mistral 8x22B 等等。
但隨后，研究者們指出當前大模型研究領域存在一個關鍵問題：很多研究未能正確地對現有 LLM 的能力進行基準測試。這是因為目前的大多數研究都采用 GSM8k、MATH、MBPP、HumanEval、SWEBench 等測試集作為基準。由于模型是基于從互聯網抓取的大量數據集進行訓練的，訓練數據集可能無意中包含了與基準測試中的問題高度相似的樣本。
這種污染可能導致模型的推理能力被錯誤評估 —— 它們可能僅僅是在訓練過程中蒙到題了，正好背出了正確答案。
剛剛，Scale AI 的一篇論文對當前最熱門的大模型進行了深度調查，包括 OpenAI 的 GPT-4、Gemini、Claude、Mistral、Llama、Phi、Abdin 等系列下參數量不同的模型。
測試結果證實了一個廣泛的疑慮：許多模型受到了基準

原文鏈接：終于有人調查了小模型過擬合：三分之二都有數據污染，微軟Phi-3、Mixtral 8x22B被點名