圖解Mixtral 8 * 7b推理優(yōu)化原理與源碼實(shí)現(xiàn)
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:圖解Mixtral 8 * 7b推理優(yōu)化原理與源碼實(shí)現(xiàn)
關(guān)鍵字:解讀,報(bào)告,騰訊,階段,代碼
文章來源:算法邦
內(nèi)容字?jǐn)?shù):17936字
內(nèi)容摘要:
智猩猩與智東西將于4月18-19日在北京共同舉辦2024中國(guó)生成式AI大會(huì),阿里巴巴通義千問大模型技術(shù)負(fù)責(zé)人周暢,潞晨科技創(chuàng)始人尤洋,生數(shù)科技CEO唐家渝,優(yōu)必選研究院執(zhí)行院長(zhǎng)焦繼超,科大訊飛人形機(jī)器人首席科學(xué)家季超,DeepWisdom合伙人徐宗澤,騰訊研究科學(xué)家張馳,前Meta首席工程負(fù)責(zé)人胡魯輝等首批嘉賓已確認(rèn)帶來演講和報(bào)告,歡迎報(bào)名。大家好,在寫這篇文章時(shí),本來是想打算介紹Mixtral 8 * 7b具體模型架構(gòu)的。但是代碼讀著讀著就發(fā)現(xiàn):
最精彩的MoE部分,其相關(guān)原理在之前的文章中已經(jīng)詳細(xì)介紹過
整體來看Mixtral 8 * 7b的模型架構(gòu)代碼,寫得非常清楚,幾乎沒有理解難點(diǎn)。
就在我以為Mixtral的代碼已無更多可寫時(shí),我注意到了它在推理時(shí)用到的一些trick,具體為:
Sliding Window Attention (SWA,滑動(dòng)窗口Attention)
Rolling Buffer Cache(也被稱為Rotating Buffer Cache,即旋轉(zhuǎn)式存儲(chǔ)的KV cache)
Long-context Chunking(長(zhǎng)上下文場(chǎng)景下的chunking策略,配
原文鏈接:圖解Mixtral 8 * 7b推理優(yōu)化原理與源碼實(shí)現(xiàn)
聯(lián)系作者
文章來源:算法邦
作者微信:allplusai
作者簡(jiǎn)介:智猩猩矩陣賬號(hào)之一,連接AI新青年,講解研究成果,分享系統(tǒng)思考。