AIGC動態歡迎閱讀
原標題:圖解Mixtral 8 * 7b推理優化原理與源碼實現
關鍵字:解讀,報告,騰訊,階段,代碼
文章來源:算法邦
內容字數:17936字
內容摘要:
智猩猩與智東西將于4月18-19日在北京共同舉辦2024中國生成式AI大會,阿里巴巴通義千問大模型技術負責人周暢,潞晨科技創始人尤洋,生數科技CEO唐家渝,優必選研究院執行院長焦繼超,科大訊飛人形機器人首席科學家季超,DeepWisdom合伙人徐宗澤,騰訊研究科學家張馳,前Meta首席工程負責人胡魯輝等首批嘉賓已確認帶來演講和報告,歡迎報名。大家好,在寫這篇文章時,本來是想打算介紹Mixtral 8 * 7b具體模型架構的。但是代碼讀著讀著就發現:
最精彩的MoE部分,其相關原理在之前的文章中已經詳細介紹過
整體來看Mixtral 8 * 7b的模型架構代碼,寫得非常清楚,幾乎沒有理解難點。
就在我以為Mixtral的代碼已無更多可寫時,我注意到了它在推理時用到的一些trick,具體為:
Sliding Window Attention (SWA,滑動窗口Attention)
Rolling Buffer Cache(也被稱為Rotating Buffer Cache,即旋轉式存儲的KV cache)
Long-context Chunking(長上下文場景下的chunking策略,配
原文鏈接:圖解Mixtral 8 * 7b推理優化原理與源碼實現
聯系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,連接AI新青年,講解研究成果,分享系統思考。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...