3天把Llama訓(xùn)成Mamba,性能不降,推理更快!
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:3天把Llama訓(xùn)成Mamba,性能不降,推理更快!
關(guān)鍵字:模型,算法,研究人員,草稿,參數(shù)
文章來源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報(bào)道編輯:alan
【新智元導(dǎo)讀】近日,Mamba方面又搞出了有意思的研究:來自康奈爾、普林斯頓等機(jī)構(gòu)的研究人員成功將Llama提煉成了Mamba模型,并且設(shè)計(jì)了新的推測(cè)解碼算法,加速了模型的推理。先來看一張其樂融融的圖片(一眼AI):
右邊的小羊駝代表Llama,而左邊的蛇(Mamba)也是我們的老熟人了。
至于到底能不能其樂融融,咱就不管了,之所以有此場景,是因?yàn)镸amba方面又搞出了有意思的研究:
——如何把Llama變成Mamba?
論文地址:https://arxiv.org/pdf/2408.15237
代碼地址:https://github.com/jxiw/MambaInLlama
近日,來自康奈爾、普林斯頓等機(jī)構(gòu)的研究人員推出了上面這篇工作,將Llama這樣的大型Transformer提煉成了Mamba模型,
并且成功在Mamba架構(gòu)上應(yīng)用了帶有硬件感知的推測(cè)解碼算法,提高了整個(gè)模型的推理速度。
為什么要把Llama變成Mamba?
因?yàn)閺念^開始訓(xùn)練一個(gè)大模型太貴了。
Mamba也火了這么長時(shí)間了,相關(guān)的研究每天都有,但自己訓(xùn)練大尺寸Mamba模型的卻很少。
原文鏈接:3天把Llama訓(xùn)成Mamba,性能不降,推理更快!
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介:
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無評(píng)論...