
AIGC動態歡迎閱讀
原標題:Mamba作者新作:將Llama3蒸餾成混合線性 RNN
關鍵字:模型,注意力,線性,基準,性能
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
機器之心編輯部Transformer 在深度學習領域取得巨大成功的關鍵是注意力機制。注意力機制讓基于 Transformer 的模型關注與輸入序列相關的部分,實現了更好的上下文理解。然而,注意力機制的缺點是計算開銷大,會隨輸入規模而二次增長,Transformer 也因此難以處理非常長的文本。
前段時間,Mamba 的出現打破了這一局面,它可以隨上下文長度的增加實現線性擴展。隨著 Mamba 的發布,這些狀態空間模型 (SSM) 在中小型規模上已經可以與 Transformer 匹敵,甚至超越 Transformer,同時還能維持隨序列長度的線性可擴展性,這讓 Mamba 具有有利的部署特性。
簡單來說,Mamba 首先引入了一個簡單卻有效的選擇機制,其可根據輸入對 SSM 進行重新參數化,從而可讓模型在濾除不相關信息的同時無限期地保留必要和相關的數據。
最近,一篇題為《The Mamba in the Llama: Distilling and Accelerating Hybrid Models》的論文證明:通過重用注意力層的權重,大型 transformer 可以被
原文鏈接:Mamba作者新作:將Llama3蒸餾成混合線性 RNN
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...

粵公網安備 44011502001135號