AIGC動態歡迎閱讀
原標題:騰訊混元、北大發現Scaling law「浪涌現象」,解決學習率調參難題
關鍵字:騰訊,風格,理論,區間,結論
文章來源:機器之心
內容字數:0字
內容摘要:
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com過去十年間,基于隨機梯度下降(SGD)的深度學習模型在許多領域都取得了極大的成功。與此同時各式各樣的 SGD 替代品也如雨后春筍般涌現。在這些眾多替代品中,Adam 及其變種最受追捧。無論是 SGD,還是 Adam,亦或是其他優化器,最核心的超參數非 Learning rate 莫屬。因此如何調整好 Leanring rate 是煉丹師們從一開始就必學的技能。
從直覺上講,影響 Learning rate 取值的重要因素是 Batch size。不知你在學習煉丹術時,是否遇到或者思考過入如下問題:
我的 Batch size 增加一倍,Learning rate 該怎么調整?
網上有說 Batch size 和 Learning rate 是線性放縮,也有說是
原文鏈接:騰訊混元、北大發現Scaling law「浪涌現象」,解決學習率調參難題
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...