LIama 3+Mamba強(qiáng)強(qiáng)聯(lián)手！蒸餾到線性RNN，推理速度提升1.6倍

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：LIama 3+Mamba強(qiáng)強(qiáng)聯(lián)手！蒸餾到線性RNN，推理速度提升1.6倍
關(guān)鍵字：模型,算法,作者,狀態(tài),標(biāo)簽
文章來源：量子位
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

克雷西發(fā)自凹非寺量子位 | 公眾號(hào) QbitAI把Llama 3蒸餾到Mamba，推理速度最高可提升1.6倍！
而且性能不減，甚至表現(xiàn)比原始模型還要優(yōu)異。
這是來自Together AI的新作，通過蒸餾將Transformer和Mamba模型結(jié)合到了一起，同時(shí)還為混合模型涉及了推理加速算法
提出Mamba架構(gòu)的大神、FlashAttention作者Tri Dao，也參與了這一項(xiàng)目。
Together AI創(chuàng)始人兼CEO表示，Transformer和Mamba的混合，是未來大模型的一大發(fā)展方向。
將Transformer蒸餾進(jìn)Mamba在蒸餾正式開始之前，需要先進(jìn)行從Transformer到線性RNN的初始化。
作者觀察到，Transformer的注意力機(jī)制與RNN的計(jì)算之間存在一定的相似性。
因此可以將Transformer的注意力線性化，從而建立二者的聯(lián)系。
利用這種對(duì)應(yīng)關(guān)系，可以將預(yù)訓(xùn)練的Transformer模型的參數(shù)復(fù)制到Mamba模型中。
在完成參數(shù)初始化后，作者采用了一個(gè)三階段的蒸餾流程進(jìn)一步提升Mamba模型的性能，使其更好地學(xué)習(xí)Transformer的知識(shí)。
第一階

原文鏈接：LIama 3+Mamba強(qiáng)強(qiáng)聯(lián)手！蒸餾到線性RNN，推理速度提升1.6倍