大模型推理速度飆升3.6倍，「美杜莎」論文來了，賈揚清：最優雅加速推理方案之一

AIGC動態1年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：大模型推理速度飆升3.6倍，「美杜莎」論文來了，賈揚清：最優雅加速推理方案之一
關鍵字：模型,主干,研究者,候選者,注意力
文章來源：機器之心
內容字數：7525字

內容摘要：

機器之心報道
編輯：杜偉、小舟去年，在加速大語言模型推理層面，我們迎來了一個比推測解碼更高效的解決方案 —— 普林斯頓、UIUC 等機構提出的 Medusa。如今，關于 Medusa 終于有了完整技術論文，還提供了新的版本。如你我所知，在大型語言模型（LLM）的運行邏輯中，隨著規模大小的增加，語言生成的質量會隨著提高。不過，這也導致了推理延遲的增加，從而對實際應用構成了重大挑戰。
從系統角度來看，LLM 推理主要受內存限制，主要延遲瓶頸源于加速器的內存帶寬而非算術計算。這一瓶頸是自回歸解碼的順序性所固有的，其中每次前向傳遞都需要將完整的模型參數從高帶寬內存傳輸到加速器緩存。該過程僅生成了單個的 token，沒有充分利用現代加速器的算術計算潛力，導致了效率低下。
為了解決這一問題，加速 LLM 推理的方法被提出，既可以增加解碼過程的算術強度（FLOPs 與總數據移動的比率），也能減少解碼步驟數量。這類方法以推測解碼（speculative decoding）為代表，使用較小的草稿（draft）模型在每一步生成 token 序列，然后通過較大的原始模型進行細化以獲得可接受的延續。不過獲得

原文鏈接：大模型推理速度飆升3.6倍，「美杜莎」論文來了，賈揚清：最優雅加速推理方案之一