AIGC動態歡迎閱讀
原標題:大道至簡?ETH研究團隊提出簡化版Transformer模型,綜合效率明顯提升
文章來源:大數據文摘
內容字數:8581字
內容摘要:大數據文摘受權轉載自將門創投?2023年,Transformer已經成為人工智能領域中最受歡迎的基礎模型,如今火熱的大型語言模型,多模態大模型均由不同類型的Transformer架構組成。與先前的CNN模型類似,Transformer同樣遵循一個設計規范,即首先構造一個基礎塊,這個基礎塊通常由注意力塊、MLP層、跳躍連接和歸一化層構成,它們以特定的排列方式進行組合,隨后對基礎塊進行堆疊形成最終的Transformer模型。不難看出,每個基礎塊的內部其實存在多種不同的排列方式,這種復雜性直接導致了整體架構的不穩定。本文介紹一篇來自蘇黎世聯邦理工學院(ETH Zurich)計算機科學系的研究工作,本文從信號傳播理論的角度重新審視了標準Transformer基礎塊的設計缺陷,并提出了一系列可以在不降低訓練速度的情況下對基礎塊進行優化的方案。例如直接移除跳躍連接和調整投影層參數等操作來簡化基礎塊,…
原文鏈接:點此閱讀原文:大道至簡?ETH研究團隊提出簡化版Transformer模型,綜合效率明顯提升
聯系作者
文章來源:大數據文摘
作者微信:BigDataDigest
作者簡介:普及數據思維,傳播數據文化
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...