英偉達(dá)nGPT重塑Transformer,AI訓(xùn)練速度暴增20倍!文本越長,加速越快

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:英偉達(dá)nGPT重塑Transformer,AI訓(xùn)練速度暴增20倍!文本越長,加速越快
關(guān)鍵字:向量,矩陣,模型,球面,注意力
文章來源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報(bào)道編輯:桃子 LRS
【新智元導(dǎo)讀】LLM訓(xùn)練速度還可以再飆升20倍!英偉達(dá)團(tuán)隊(duì)祭出全新架構(gòu)歸一化Transformer(nGPT),上下文越長,訓(xùn)練速度越快,還能維持原有精度。AI的未來,或許就此改寫……
最近,英偉達(dá)團(tuán)隊(duì)拋出的一枚重磅,提出了全新神經(jīng)網(wǎng)絡(luò)架構(gòu)——?dú)w一化Transformer(nGPT),基于超球面(hypersphere)進(jìn)行表示學(xué)習(xí)。
相較于Transformer架構(gòu)本身,nGPT直接將LLM訓(xùn)練速度提升至高20倍,而且還保持了原有精度。
也就意味著,原本需要一個(gè)月完成的訓(xùn)練,在未來可能只需1-2天的時(shí)間就能搞定。
無疑為通向AGI終極目標(biāo),注入了一針強(qiáng)心劑!
論文地址:https://arxiv.org/pdf/2410.01131
在nGPT中,所有的向量(嵌入、MLP、注意力矩陣、隱藏狀態(tài)),都被歸一化為單位范數(shù)(unit norm)。
輸入后的token在超球面表面上移動(dòng),每一層都通過「位移」來貢獻(xiàn)最終的輸出預(yù)測,其中位移量是由MLP和注意力模塊進(jìn)行定義的,其向量組件都位于同一個(gè)超球面上。
實(shí)驗(yàn)表明,nGPT達(dá)到相同精度所需的訓(xùn)練步驟
原文鏈接:英偉達(dá)nGPT重塑Transformer,AI訓(xùn)練速度暴增20倍!文本越長,加速越快
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介:

粵公網(wǎng)安備 44011502001135號