大道至簡?ETH研究團隊提出簡化版Transformer模型,綜合效率明顯提升
AIGC動態(tài)歡迎閱讀
原標(biāo)題:大道至簡?ETH研究團隊提出簡化版Transformer模型,綜合效率明顯提升
關(guān)鍵字:模型,本文,基礎(chǔ),參數(shù),速度
文章來源:大數(shù)據(jù)文摘
內(nèi)容字?jǐn)?shù):8581字
內(nèi)容摘要:大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自將門創(chuàng)投?2023年,Transformer已經(jīng)成為人工智能領(lǐng)域中最受歡迎的基礎(chǔ)模型,如今火熱的大型語言模型,多模態(tài)大模型均由不同類型的Transformer架構(gòu)組成。與先前的CNN模型類似,Transformer同樣遵循一個設(shè)計規(guī)范,即首先構(gòu)造一個基礎(chǔ)塊,這個基礎(chǔ)塊通常由注意力塊、MLP層、跳躍連接和歸一化層構(gòu)成,它們以特定的排列方式進行組合,隨后對基礎(chǔ)塊進行堆疊形成最終的Transformer模型。不難看出,每個基礎(chǔ)塊的內(nèi)部其實存在多種不同的排列方式,這種復(fù)雜性直接導(dǎo)致了整體架構(gòu)的不穩(wěn)定。本文介紹一篇來自蘇黎世聯(lián)邦理工學(xué)院(ETH Zurich)計算機科學(xué)系的研究工作,本文從信號傳播理論的角度重新審視了標(biāo)準(zhǔn)Transformer基礎(chǔ)塊的設(shè)計缺陷,并提出了一系列可以在不降低訓(xùn)練速度的情況下對基礎(chǔ)塊進行優(yōu)化的方案。例如直接移除跳躍連接和調(diào)整投影層參數(shù)等操作來簡化基礎(chǔ)塊,…
原文鏈接:點此閱讀原文:大道至簡?ETH研究團隊提出簡化版Transformer模型,綜合效率明顯提升
聯(lián)系作者
文章來源:大數(shù)據(jù)文摘
作者微信:BigDataDigest
作者簡介:普及數(shù)據(jù)思維,傳播數(shù)據(jù)文化