AIGC動態歡迎閱讀
原標題:清華發布Temporal Scaling Law,解釋時間尺度對大模型表現的影響
關鍵字:模型,損失,本文,位置,數據
文章來源:夕小瑤科技說
內容字數:5518字
內容摘要:
夕小瑤科技說 原創作者 | Axe_越眾所周知,
語言模型調參!
預訓練語言模型調參!!
預訓練大語言模型調參!!!
簡直就是一個指數級遞增令人炸毛的事情,小編也常常在做夢,要是只訓練幾步就知道現在的超參數或者數據配比能不能行,那該有多好。
但現在,有一篇工作似乎正在令小編的夢想成為現實,那就是清華大學提出的Temporal Scaling Law。根據他們提出的這條規則,便可以通過當前訓練步來準確預測未來訓練步損失(loss)的下降情況,從而可以極大程度上提高各位煉丹師的效率。
此外,正所謂“重劍無鋒,大巧不工”,這篇研究還發現在訓練過程中并不需要針對token position添加權重,默認的預訓練模式就足以達到非常好的效果。
論文標題Temporal Scaling Law for Large Language Models
論文鏈接https://arxiv.org/pdf/2404.17785
Scaling Law在介紹本文工作之前,先來回顧一下2020年由Kaplan等人首次提出的Scaling Law,即對于生成式Transformer模型,測試損失與模型大小、數據集大
原文鏈接:清華發布Temporal Scaling Law,解釋時間尺度對大模型表現的影響
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:專業、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內外機構投資人,互聯網大廠中高管和AI公司創始人。一線作者來自清北、國內外頂級AI實驗室和大廠,兼備敏銳的行業嗅覺和洞察深度。商務合作:zym5189