AIGC動態歡迎閱讀
原標題:LIama 3+Mamba強強聯手!蒸餾到線性RNN,推理速度提升1.6倍
關鍵字:模型,算法,作者,狀態,標簽
文章來源:量子位
內容字數:0字
內容摘要:
克雷西 發自 凹非寺量子位 | 公眾號 QbitAI把Llama 3蒸餾到Mamba,推理速度最高可提升1.6倍!
而且性能不減,甚至表現比原始模型還要優異。
這是來自Together AI的新作,通過蒸餾將Transformer和Mamba模型結合到了一起,同時還為混合模型涉及了推理加速算法
提出Mamba架構的大神、FlashAttention作者Tri Dao,也參與了這一項目。
Together AI創始人兼CEO表示,Transformer和Mamba的混合,是未來大模型的一大發展方向。
將Transformer蒸餾進Mamba在蒸餾正式開始之前,需要先進行從Transformer到線性RNN的初始化。
作者觀察到,Transformer的注意力機制與RNN的計算之間存在一定的相似性。
因此可以將Transformer的注意力線性化,從而建立二者的聯系。
利用這種對應關系,可以將預訓練的Transformer模型的參數復制到Mamba模型中。
在完成參數初始化后,作者采用了一個三階段的蒸餾流程進一步提升Mamba模型的性能,使其更好地學習Transformer的知識。
第一階
原文鏈接:LIama 3+Mamba強強聯手!蒸餾到線性RNN,推理速度提升1.6倍
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...