AIGC動態歡迎閱讀
原標題:英偉達nGPT重塑Transformer,AI訓練速度暴增20倍!文本越長,加速越快
關鍵字:向量,矩陣,模型,球面,注意力
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:桃子 LRS
【新智元導讀】LLM訓練速度還可以再飆升20倍!英偉達團隊祭出全新架構歸一化Transformer(nGPT),上下文越長,訓練速度越快,還能維持原有精度。AI的未來,或許就此改寫……
最近,英偉達團隊拋出的一枚重磅,提出了全新神經網絡架構——歸一化Transformer(nGPT),基于超球面(hypersphere)進行表示學習。
相較于Transformer架構本身,nGPT直接將LLM訓練速度提升至高20倍,而且還保持了原有精度。
也就意味著,原本需要一個月完成的訓練,在未來可能只需1-2天的時間就能搞定。
無疑為通向AGI終極目標,注入了一針強心劑!
論文地址:https://arxiv.org/pdf/2410.01131
在nGPT中,所有的向量(嵌入、MLP、注意力矩陣、隱藏狀態),都被歸一化為單位范數(unit norm)。
輸入后的token在超球面表面上移動,每一層都通過「位移」來貢獻最終的輸出預測,其中位移量是由MLP和注意力模塊進行定義的,其向量組件都位于同一個超球面上。
實驗表明,nGPT達到相同精度所需的訓練步驟
原文鏈接:英偉達nGPT重塑Transformer,AI訓練速度暴增20倍!文本越長,加速越快
聯系作者
文章來源:新智元
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...