AIGC動態歡迎閱讀
原標題:希望這篇是最清晰好懂的 Layernorm 原理解析
關鍵字:向量,維度,梯度,表示,數據
文章來源:JioNLP
內容字數:0字
內容摘要:
Hello,大家好,我是 JioNLP。
這一篇文章主要講講 Layer Normalization。在本文里,Layer Normalization 統一都被稱為 layernorm。字面意思就是層歸一化,也屬于數據分布歸一化的一種。
在神經網絡訓練里,把數據分布都做一個歸一化,好處多多,可以使訓練更充分,更快速,可以克服Internal Covariate Shift 問題。這個問題是需要單獨攤開來講的。這一節主要是講一下 layernorm 是如何實施的,以及其本質。
Layernorm 的應用場景Layernorm 主要應用在自然語言處理領域,里面的各類神經網絡模型 Bert、GPT 等等都是建立在 token 上的。也就是下圖這樣,每一個 token 都對應一個 embedding。
Embedding 是一個向量,每個 token 之間的關系都使用 embedding 向量來表示。最主要使用余弦相似度。舉例兩個 token embedding 向量,都是4維,他們之間的余弦相似度是:
importnumpyasnptoken_embedding_1=np.array([-5
原文鏈接:希望這篇是最清晰好懂的 Layernorm 原理解析
聯系作者
文章來源:JioNLP
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...