英偉達nGPT重塑Transformer，AI訓練速度暴增20倍！文本越長，加速越快

AIGC動態(tài)歡迎閱讀

原標題：英偉達nGPT重塑Transformer，AI訓練速度暴增20倍！文本越長，加速越快
關(guān)鍵字：向量,矩陣,模型,球面,注意力
文章來源：新智元
內(nèi)容字數(shù)：0字

內(nèi)容摘要：

新智元報道編輯：桃子 LRS
【新智元導讀】LLM訓練速度還可以再飆升20倍！英偉達團隊祭出全新架構(gòu)歸一化Transformer（nGPT），上下文越長，訓練速度越快，還能維持原有精度。AI的未來，或許就此改寫……
最近，英偉達團隊拋出的一枚重磅，提出了全新神經(jīng)網(wǎng)絡(luò)架構(gòu)——歸一化Transformer（nGPT），基于超球面（hypersphere）進行表示學習。
相較于Transformer架構(gòu)本身，nGPT直接將LLM訓練速度提升至高20倍，而且還保持了原有精度。
也就意味著，原本需要一個月完成的訓練，在未來可能只需1-2天的時間就能搞定。
無疑為通向AGI終極目標，注入了一針強心劑！
論文地址：https://arxiv.org/pdf/2410.01131
在nGPT中，所有的向量（嵌入、MLP、注意力矩陣、隱藏狀態(tài)），都被歸一化為單位范數(shù)（unit norm）。
輸入后的token在超球面表面上移動，每一層都通過「位移」來貢獻最終的輸出預測，其中位移量是由MLP和注意力模塊進行定義的，其向量組件都位于同一個超球面上。
實驗表明，nGPT達到相同精度所需的訓練步驟

原文鏈接：英偉達nGPT重塑Transformer，AI訓練速度暴增20倍！文本越長，加速越快