不同數(shù)據(jù)集有不同的Scaling law?而你可用一個壓縮算法來預測它
AIGC動態(tài)歡迎閱讀
原標題:不同數(shù)據(jù)集有不同的Scaling law?而你可用一個壓縮算法來預測它
關鍵字:數(shù)據(jù),復雜度,句法,壓縮率,參數(shù)
文章來源:機器之心
內(nèi)容字數(shù):0字
內(nèi)容摘要:
機器之心報道
機器之心編輯部一般而言,訓練神經(jīng)網(wǎng)絡耗費的計算量越大,其性能就越好。在擴大計算規(guī)模時,必須要做個決定:是增多模型參數(shù)量還是提升數(shù)據(jù)集大小 —— 必須在固定的計算預算下權(quán)衡此兩項因素。
Scaling law 告訴我們:只要能適當?shù)胤峙鋮?shù)和數(shù)據(jù),就能在固定計算預算下實現(xiàn)性能最大化。之前已有不少研究探索過神經(jīng)語言模型的 Scaling law,而這些研究通常得出的結(jié)論是參數(shù)和訓練 token 數(shù)應當一比一地擴展。
但是,之前的語言模型 Scaling law 研究都是基于在散亂的網(wǎng)絡文本上訓練的 Transformer 得到的。這是一種非常特定的數(shù)據(jù)分布,因此我們自然會問:基于這樣的網(wǎng)絡文本數(shù)據(jù)集得到的 Scaling law 是否可以泛化到其它分布?
此外,人們普遍認為,訓練數(shù)據(jù)混合的秘訣在于能讓前沿探索的產(chǎn)業(yè)界實驗室能持續(xù)產(chǎn)出當前最佳的 LLM。考慮到提升數(shù)據(jù)質(zhì)量能顯著提升語言模型的性能,而強化學習的 Scaling law 也會隨博弈難度而縮放,也許我們可以假設:當前的語言模型 Scaling law(即 Chinchilla)只是針對網(wǎng)絡文本數(shù)據(jù)的具體案例,其背后還
原文鏈接:不同數(shù)據(jù)集有不同的Scaling law?而你可用一個壓縮算法來預測它
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務平臺