AIGC動態歡迎閱讀
原標題:復旦MOSS團隊:數據配比的scalinglaw
關鍵字:數據,模型,比例,報告,領域
文章來源:算法邦
內容字數:5345字
內容摘要:
智猩猩與智東西將于4月18-19日在北京共同舉辦2024中國生成式AI大會,愛詩科技創始人王長虎,啟明創投合伙人周志峰,Open-Sora開發團隊潞晨科技創始人尤洋,「清華系Sora」生數科技CEO唐家渝,萬興科技副總裁朱偉,優必選研究院執行院長焦繼超等40+位嘉賓已確認帶來演講和報告,歡迎報名。這次,復旦MOSS團隊帶著數據配比scaling laws就來了。題目:Data Mixing Laws: Optimizing Data Mixture by Predicting Language Modeling Performance
地址:https://arxiv.org/abs/2403.16952
代碼:https://github.com/yegcjs/mixinglaws
現有關于多樣性的研究,通常依賴于啟發式或定性策略來調整混合比例,缺乏對模型性能與數據混合比例關系的定量理解。
這篇文章旨在探索模型性能與數據混合比例之間的定量可預測性,并提出一種方法來優化數據混合比例,以提升預訓練模型的效率和性能。
說白了,就是量化多樣性和loss的關系,通過在小規模數據集上擬合這多樣性
聯系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,連接AI新青年,講解研究成果,分享系統思考。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...