清華發(fā)布Temporal Scaling Law，解釋時間尺度對大模型表現(xiàn)的影響

AIGC動態(tài)1年前 (2024)發(fā)布夕小瑤科技說

AIGC動態(tài)歡迎閱讀

原標題：清華發(fā)布Temporal Scaling Law，解釋時間尺度對大模型表現(xiàn)的影響
關鍵字：模型,損失,本文,位置,數(shù)據(jù)
文章來源：夕小瑤科技說
內容字數(shù)：5518字

內容摘要：

夕小瑤科技說原創(chuàng)作者 | Axe_越眾所周知，
語言模型調參！
預訓練語言模型調參！！
預訓練大語言模型調參！！！
簡直就是一個指數(shù)級遞增令人炸毛的事情，小編也常常在做夢，要是只訓練幾步就知道現(xiàn)在的超參數(shù)或者數(shù)據(jù)配比能不能行，那該有多好。
但現(xiàn)在，有一篇工作似乎正在令小編的夢想成為現(xiàn)實，那就是清華大學提出的Temporal Scaling Law。根據(jù)他們提出的這條規(guī)則，便可以通過當前訓練步來準確預測未來訓練步損失（loss）的下降情況，從而可以極大程度上提高各位煉丹師的效率。
此外，正所謂“重劍無鋒，大巧不工”，這篇研究還發(fā)現(xiàn)在訓練過程中并不需要針對token position添加權重，默認的預訓練模式就足以達到非常好的效果。
論文標題Temporal Scaling Law for Large Language Models
論文鏈接https://arxiv.org/pdf/2404.17785
Scaling Law在介紹本文工作之前，先來回顧一下2020年由Kaplan等人首次提出的Scaling Law，即對于生成式Transformer模型，測試損失與模型大小、數(shù)據(jù)集大

原文鏈接：清華發(fā)布Temporal Scaling Law，解釋時間尺度對大模型表現(xiàn)的影響

聯(lián)系作者

文章來源：夕小瑤科技說
作者微信：xixiaoyaoQAQ
作者簡介：專業(yè)、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員，覆蓋500多家海內外機構投資人，互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來自清北、國內外頂級AI實驗室和大廠，兼?zhèn)涿翡J的行業(yè)嗅覺和洞察深度。商務合作：zym5189

閱讀原文