AIGC動態歡迎閱讀
原標題:終于有人調查了小模型過擬合:三分之二都有數據污染,微軟Phi-3、Mixtral 8x22B被點名
關鍵字:模型,數據,研究者,基準,問題
文章來源:機器之心
內容字數:9050字
內容摘要:
機器之心報道
編輯:佳琪、蛋醬當前最火的大模型,竟然三分之二都存在過擬合問題?
剛剛出爐的一項研究,讓領域內的許多研究者有點意外。提高大型語言模型的推理能力是當前研究的最重要方向之一,而在這類任務中,近期發布的很多小模型看起來表現不錯,比如微軟 Phi-3、Mistral 8x22B 等等。
但隨后,研究者們指出當前大模型研究領域存在一個關鍵問題:很多研究未能正確地對現有 LLM 的能力進行基準測試。這是因為目前的大多數研究都采用 GSM8k、MATH、MBPP、HumanEval、SWEBench 等測試集作為基準。由于模型是基于從互聯網抓取的大量數據集進行訓練的,訓練數據集可能無意中包含了與基準測試中的問題高度相似的樣本。
這種污染可能導致模型的推理能力被錯誤評估 —— 它們可能僅僅是在訓練過程中蒙到題了,正好背出了正確答案。
剛剛,Scale AI 的一篇論文對當前最熱門的大模型進行了深度調查,包括 OpenAI 的 GPT-4、Gemini、Claude、Mistral、Llama、Phi、Abdin 等系列下參數量不同的模型。
測試結果證實了一個廣泛的疑慮:許多模型受到了基準
原文鏈接:終于有人調查了小模型過擬合:三分之二都有數據污染,微軟Phi-3、Mixtral 8x22B被點名
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...