AIGC動態歡迎閱讀
原標題:不同數據集有不同的Scaling law?而你可用一個壓縮算法來預測它
關鍵字:數據,復雜度,句法,壓縮率,參數
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
機器之心編輯部一般而言,訓練神經網絡耗費的計算量越大,其性能就越好。在擴大計算規模時,必須要做個決定:是增多模型參數量還是提升數據集大小 —— 必須在固定的計算預算下權衡此兩項因素。
Scaling law 告訴我們:只要能適當地分配參數和數據,就能在固定計算預算下實現性能最大化。之前已有不少研究探索過神經語言模型的 Scaling law,而這些研究通常得出的結論是參數和訓練 token 數應當一比一地擴展。
但是,之前的語言模型 Scaling law 研究都是基于在散亂的網絡文本上訓練的 Transformer 得到的。這是一種非常特定的數據分布,因此我們自然會問:基于這樣的網絡文本數據集得到的 Scaling law 是否可以泛化到其它分布?
此外,人們普遍認為,訓練數據混合的秘訣在于能讓前沿探索的產業界實驗室能持續產出當前最佳的 LLM。考慮到提升數據質量能顯著提升語言模型的性能,而強化學習的 Scaling law 也會隨博弈難度而縮放,也許我們可以假設:當前的語言模型 Scaling law(即 Chinchilla)只是針對網絡文本數據的具體案例,其背后還
原文鏈接:不同數據集有不同的Scaling law?而你可用一個壓縮算法來預測它
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...