清華發(fā)布Temporal Scaling Law,解釋時間尺度對大模型表現(xiàn)的影響
AIGC動態(tài)歡迎閱讀
原標題:清華發(fā)布Temporal Scaling Law,解釋時間尺度對大模型表現(xiàn)的影響
關鍵字:模型,損失,本文,位置,數(shù)據(jù)
文章來源:夕小瑤科技說
內容字數(shù):5518字
內容摘要:
夕小瑤科技說 原創(chuàng)作者 | Axe_越眾所周知,
語言模型調參!
預訓練語言模型調參!!
預訓練大語言模型調參!!!
簡直就是一個指數(shù)級遞增令人炸毛的事情,小編也常常在做夢,要是只訓練幾步就知道現(xiàn)在的超參數(shù)或者數(shù)據(jù)配比能不能行,那該有多好。
但現(xiàn)在,有一篇工作似乎正在令小編的夢想成為現(xiàn)實,那就是清華大學提出的Temporal Scaling Law。根據(jù)他們提出的這條規(guī)則,便可以通過當前訓練步來準確預測未來訓練步損失(loss)的下降情況,從而可以極大程度上提高各位煉丹師的效率。
此外,正所謂“重劍無鋒,大巧不工”,這篇研究還發(fā)現(xiàn)在訓練過程中并不需要針對token position添加權重,默認的預訓練模式就足以達到非常好的效果。
論文標題Temporal Scaling Law for Large Language Models
論文鏈接https://arxiv.org/pdf/2404.17785
Scaling Law在介紹本文工作之前,先來回顧一下2020年由Kaplan等人首次提出的Scaling Law,即對于生成式Transformer模型,測試損失與模型大小、數(shù)據(jù)集大
原文鏈接:清華發(fā)布Temporal Scaling Law,解釋時間尺度對大模型表現(xiàn)的影響
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:專業(yè)、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內外機構投資人,互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來自清北、國內外頂級AI實驗室和大廠,兼?zhèn)涿翡J的行業(yè)嗅覺和洞察深度。商務合作:zym5189