大道至簡？ETH研究團隊提出簡化版Transformer模型，綜合效率明顯提升

AIGC動態(tài)2年前 (2023)發(fā)布大數(shù)據(jù)文摘

AIGC動態(tài)歡迎閱讀

原標(biāo)題：大道至簡？ETH研究團隊提出簡化版Transformer模型，綜合效率明顯提升

文章來源：大數(shù)據(jù)文摘

內(nèi)容字?jǐn)?shù)：8581字

內(nèi)容摘要：大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自將門創(chuàng)投?2023年，Transformer已經(jīng)成為人工智能領(lǐng)域中最受歡迎的基礎(chǔ)模型，如今火熱的大型語言模型，多模態(tài)大模型均由不同類型的Transformer架構(gòu)組成。與先前的CNN模型類似，Transformer同樣遵循一個設(shè)計規(guī)范，即首先構(gòu)造一個基礎(chǔ)塊，這個基礎(chǔ)塊通常由注意力塊、MLP層、跳躍連接和歸一化層構(gòu)成，它們以特定的排列方式進行組合，隨后對基礎(chǔ)塊進行堆疊形成最終的Transformer模型。不難看出，每個基礎(chǔ)塊的內(nèi)部其實存在多種不同的排列方式，這種復(fù)雜性直接導(dǎo)致了整體架構(gòu)的不穩(wěn)定。本文介紹一篇來自蘇黎世聯(lián)邦理工學(xué)院（ETH Zurich）計算機科學(xué)系的研究工作，本文從信號傳播理論的角度重新審視了標(biāo)準(zhǔn)Transformer基礎(chǔ)塊的設(shè)計缺陷，并提出了一系列可以在不降低訓(xùn)練速度的情況下對基礎(chǔ)塊進行優(yōu)化的方案。例如直接移除跳躍連接和調(diào)整投影層參數(shù)等操作來簡化基礎(chǔ)塊，…

原文鏈接：點此閱讀原文：大道至簡？ETH研究團隊提出簡化版Transformer模型，綜合效率明顯提升