Mamba作者新作:將Llama3蒸餾成混合線性 RNN
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:Mamba作者新作:將Llama3蒸餾成混合線性 RNN
關(guān)鍵字:模型,注意力,線性,基準(zhǔn),性能
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心報(bào)道
機(jī)器之心編輯部Transformer 在深度學(xué)習(xí)領(lǐng)域取得巨大成功的關(guān)鍵是注意力機(jī)制。注意力機(jī)制讓基于 Transformer 的模型關(guān)注與輸入序列相關(guān)的部分,實(shí)現(xiàn)了更好的上下文理解。然而,注意力機(jī)制的缺點(diǎn)是計(jì)算開銷大,會(huì)隨輸入規(guī)模而二次增長(zhǎng),Transformer 也因此難以處理非常長(zhǎng)的文本。
前段時(shí)間,Mamba 的出現(xiàn)打破了這一局面,它可以隨上下文長(zhǎng)度的增加實(shí)現(xiàn)線性擴(kuò)展。隨著 Mamba 的發(fā)布,這些狀態(tài)空間模型 (SSM) 在中小型規(guī)模上已經(jīng)可以與 Transformer 匹敵,甚至超越 Transformer,同時(shí)還能維持隨序列長(zhǎng)度的線性可擴(kuò)展性,這讓 Mamba 具有有利的部署特性。
簡(jiǎn)單來說,Mamba 首先引入了一個(gè)簡(jiǎn)單卻有效的選擇機(jī)制,其可根據(jù)輸入對(duì) SSM 進(jìn)行重新參數(shù)化,從而可讓模型在濾除不相關(guān)信息的同時(shí)無限期地保留必要和相關(guān)的數(shù)據(jù)。
最近,一篇題為《The Mamba in the Llama: Distilling and Accelerating Hybrid Models》的論文證明:通過重用注意力層的權(quán)重,大型 transformer 可以被
原文鏈接:Mamba作者新作:將Llama3蒸餾成混合線性 RNN
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡(jiǎn)介: