AIGC動態歡迎閱讀
原標題:數據更多更好還是質量更高更好?這項研究能幫你做出選擇
關鍵字:數據,效用,模型,樣本,質量
文章來源:機器之心
內容字數:8259字
內容摘要:
機器之心報道
編輯:Panda W當計算預算低時,重復使用高質量數據更好;當不差錢時,使用大量數據更有利。對基礎模型進行 scaling 是指使用更多數據、計算和參數進行預訓練,簡單來說就是「規模擴展」。
雖然直接擴展模型規??雌饋砗唵未直?,但也確實為機器學習社區帶來了不少表現卓越的模型。之前不少研究都認可擴大神經模型規模的做法,所謂量變引起質變,這種觀點也被稱為神經擴展律(neural scaling laws)。
近段時間,又有不少人認為「數據」才是那些當前最佳的閉源模型的關鍵,不管是 LLM、VLM 還是擴散模型。隨著數據質量的重要性得到認可,已經涌現出了不少旨在提升數據質量的研究:要么是從大型語料庫中過濾出高質量數據,要么是生成高質量的新數據。但是,過去的擴展律一般是將「數據」視為一個同質實體,并未將近期人們關注的「數據質量」作為一個考量維度。
盡管網絡上的數據規模龐大,但高質量數據(基于多個評估指標)通常很有限?,F在,開創性的研究來了 —— 數據過濾維度上的擴展律!它來自卡內基梅隆大學和 Bosch Center for AI,其中尤其關注了「大規模」與「高質量」之間的數量
原文鏈接:數據更多更好還是質量更高更好?這項研究能幫你做出選擇
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...