數據更多更好還是質量更高更好？這項研究能幫你做出選擇

AIGC動態1年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：數據更多更好還是質量更高更好？這項研究能幫你做出選擇
關鍵字：數據,效用,模型,樣本,質量
文章來源：機器之心
內容字數：8259字

內容摘要：

機器之心報道
編輯：Panda W當計算預算低時，重復使用高質量數據更好；當不差錢時，使用大量數據更有利。對基礎模型進行 scaling 是指使用更多數據、計算和參數進行預訓練，簡單來說就是「規模擴展」。
雖然直接擴展模型規模看起來簡單粗暴，但也確實為機器學習社區帶來了不少表現卓越的模型。之前不少研究都認可擴大神經模型規模的做法，所謂量變引起質變，這種觀點也被稱為神經擴展律（neural scaling laws）。
近段時間，又有不少人認為「數據」才是那些當前最佳的閉源模型的關鍵，不管是 LLM、VLM 還是擴散模型。隨著數據質量的重要性得到認可，已經涌現出了不少旨在提升數據質量的研究：要么是從大型語料庫中過濾出高質量數據，要么是生成高質量的新數據。但是，過去的擴展律一般是將「數據」視為一個同質實體，并未將近期人們關注的「數據質量」作為一個考量維度。
盡管網絡上的數據規模龐大，但高質量數據（基于多個評估指標）通常很有限。現在，開創性的研究來了 —— 數據過濾維度上的擴展律！它來自卡內基梅隆大學和 Bosch Center for AI，其中尤其關注了「大規模」與「高質量」之間的數量

原文鏈接：數據更多更好還是質量更高更好？這項研究能幫你做出選擇