ICLR 2024 Oral|用巧妙的「傳送」技巧,讓神經(jīng)網(wǎng)絡(luò)的訓(xùn)練更加高效
AIGC動態(tài)歡迎閱讀
原標題:ICLR 2024 Oral|用巧妙的「傳送」技巧,讓神經(jīng)網(wǎng)絡(luò)的訓(xùn)練更加高效
關(guān)鍵字:曲率,損失,梯度,算法,對稱性
文章來源:機器之心
內(nèi)容字數(shù):6220字
內(nèi)容摘要:
AIxiv專欄是機器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本論文作者趙博是加州大學(xué)圣地亞哥分校的三年級在讀博士,其導(dǎo)師為 Rose Yu。她的主要研究方向為神經(jīng)網(wǎng)絡(luò)參數(shù)空間中的對稱性,及其對優(yōu)化、泛化和損失函數(shù)地貌的影響。她曾獲 DeepMind 獎學(xué)金,并且是高通創(chuàng)新獎學(xué)金的決賽入圍者。郵箱:bozhao@ucsd.edu
眾多神經(jīng)網(wǎng)絡(luò)模型中都會有一個有趣的現(xiàn)象:不同的參數(shù)值可以得到相同的損失值。這種現(xiàn)象可以通過參數(shù)空間對稱性來解釋,即某些參數(shù)的變換不會影響損失函數(shù)的結(jié)果。基于這一發(fā)現(xiàn),傳送算法(teleportation)被設(shè)計出來,它利用這些對稱變換來加速尋找最優(yōu)參數(shù)的過程。盡管傳送算法在實踐中表現(xiàn)出了加速優(yōu)化的潛力,但其背后的確切機制尚不清楚。
近日,來自加州大學(xué)圣地亞哥分校、Flatiron Institu
原文鏈接:ICLR 2024 Oral|用巧妙的「傳送」技巧,讓神經(jīng)網(wǎng)絡(luò)的訓(xùn)練更加高效
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺