LIama 3+Mamba強(qiáng)強(qiáng)聯(lián)手!蒸餾到線性RNN,推理速度提升1.6倍
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:LIama 3+Mamba強(qiáng)強(qiáng)聯(lián)手!蒸餾到線性RNN,推理速度提升1.6倍
關(guān)鍵字:模型,算法,作者,狀態(tài),標(biāo)簽
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
克雷西 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI把Llama 3蒸餾到Mamba,推理速度最高可提升1.6倍!
而且性能不減,甚至表現(xiàn)比原始模型還要優(yōu)異。
這是來自Together AI的新作,通過蒸餾將Transformer和Mamba模型結(jié)合到了一起,同時(shí)還為混合模型涉及了推理加速算法
提出Mamba架構(gòu)的大神、FlashAttention作者Tri Dao,也參與了這一項(xiàng)目。
Together AI創(chuàng)始人兼CEO表示,Transformer和Mamba的混合,是未來大模型的一大發(fā)展方向。
將Transformer蒸餾進(jìn)Mamba在蒸餾正式開始之前,需要先進(jìn)行從Transformer到線性RNN的初始化。
作者觀察到,Transformer的注意力機(jī)制與RNN的計(jì)算之間存在一定的相似性。
因此可以將Transformer的注意力線性化,從而建立二者的聯(lián)系。
利用這種對(duì)應(yīng)關(guān)系,可以將預(yù)訓(xùn)練的Transformer模型的參數(shù)復(fù)制到Mamba模型中。
在完成參數(shù)初始化后,作者采用了一個(gè)三階段的蒸餾流程進(jìn)一步提升Mamba模型的性能,使其更好地學(xué)習(xí)Transformer的知識(shí)。
第一階
原文鏈接:LIama 3+Mamba強(qiáng)強(qiáng)聯(lián)手!蒸餾到線性RNN,推理速度提升1.6倍
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡(jiǎn)介: