希望這篇是最清晰好懂的 Layernorm 原理解析
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:希望這篇是最清晰好懂的 Layernorm 原理解析
關(guān)鍵字:向量,維度,梯度,表示,數(shù)據(jù)
文章來源:JioNLP
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
Hello,大家好,我是 JioNLP。
這一篇文章主要講講 Layer Normalization。在本文里,Layer Normalization 統(tǒng)一都被稱為 layernorm。字面意思就是層歸一化,也屬于數(shù)據(jù)分布?xì)w一化的一種。
在神經(jīng)網(wǎng)絡(luò)訓(xùn)練里,把數(shù)據(jù)分布都做一個(gè)歸一化,好處多多,可以使訓(xùn)練更充分,更快速,可以克服Internal Covariate Shift 問題。這個(gè)問題是需要單獨(dú)攤開來講的。這一節(jié)主要是講一下 layernorm 是如何實(shí)施的,以及其本質(zhì)。
Layernorm 的應(yīng)用場(chǎng)景Layernorm 主要應(yīng)用在自然語言處理領(lǐng)域,里面的各類神經(jīng)網(wǎng)絡(luò)模型 Bert、GPT 等等都是建立在 token 上的。也就是下圖這樣,每一個(gè) token 都對(duì)應(yīng)一個(gè) embedding。
Embedding 是一個(gè)向量,每個(gè) token 之間的關(guān)系都使用 embedding 向量來表示。最主要使用余弦相似度。舉例兩個(gè) token embedding 向量,都是4維,他們之間的余弦相似度是:
importnumpyasnptoken_embedding_1=np.array([-5
原文鏈接:希望這篇是最清晰好懂的 Layernorm 原理解析
聯(lián)系作者
文章來源:JioNLP
作者微信:
作者簡(jiǎn)介: