3天把Llama訓(xùn)成Mamba，性能不降，推理更快！

AIGC動態(tài)1年前 (2024)發(fā)布新智元

AIGC動態(tài)歡迎閱讀

原標(biāo)題：3天把Llama訓(xùn)成Mamba，性能不降，推理更快！
關(guān)鍵字：模型,算法,研究人員,草稿,參數(shù)
文章來源：新智元
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

新智元報道編輯：alan
【新智元導(dǎo)讀】近日，Mamba方面又搞出了有意思的研究：來自康奈爾、普林斯頓等機(jī)構(gòu)的研究人員成功將Llama提煉成了Mamba模型，并且設(shè)計了新的推測解碼算法，加速了模型的推理。先來看一張其樂融融的圖片（一眼AI）：
右邊的小羊駝代表Llama，而左邊的蛇（Mamba）也是我們的老熟人了。
至于到底能不能其樂融融，咱就不管了，之所以有此場景，是因為Mamba方面又搞出了有意思的研究：
——如何把Llama變成Mamba？
論文地址：https://arxiv.org/pdf/2408.15237
代碼地址：https://github.com/jxiw/MambaInLlama
近日，來自康奈爾、普林斯頓等機(jī)構(gòu)的研究人員推出了上面這篇工作，將Llama這樣的大型Transformer提煉成了Mamba模型，
并且成功在Mamba架構(gòu)上應(yīng)用了帶有硬件感知的推測解碼算法，提高了整個模型的推理速度。
為什么要把Llama變成Mamba？
因為從頭開始訓(xùn)練一個大模型太貴了。
Mamba也火了這么長時間了，相關(guān)的研究每天都有，但自己訓(xùn)練大尺寸Mamba模型的卻很少。

原文鏈接：3天把Llama訓(xùn)成Mamba，性能不降，推理更快！