大模型推理速度飆升3.6倍,「美杜莎」論文來了,賈揚(yáng)清:最優(yōu)雅加速推理方案之一

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:大模型推理速度飆升3.6倍,「美杜莎」論文來了,賈揚(yáng)清:最優(yōu)雅加速推理方案之一
關(guān)鍵字:模型,主干,研究者,候選者,注意力
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):7525字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:杜偉、小舟去年,在加速大語言模型推理層面,我們迎來了一個(gè)比推測(cè)解碼更高效的解決方案 —— 普林斯頓、UIUC 等機(jī)構(gòu)提出的 Medusa。如今,關(guān)于 Medusa 終于有了完整技術(shù)論文,還提供了新的版本。如你我所知,在大型語言模型(LLM)的運(yùn)行邏輯中,隨著規(guī)模大小的增加,語言生成的質(zhì)量會(huì)隨著提高。不過,這也導(dǎo)致了推理延遲的增加,從而對(duì)實(shí)際應(yīng)用構(gòu)成了重大挑戰(zhàn)。
從系統(tǒng)角度來看,LLM 推理主要受內(nèi)存限制,主要延遲瓶頸源于加速器的內(nèi)存帶寬而非算術(shù)計(jì)算。這一瓶頸是自回歸解碼的順序性所固有的,其中每次前向傳遞都需要將完整的模型參數(shù)從高帶寬內(nèi)存?zhèn)鬏數(shù)郊铀倨骶彺妗T撨^程僅生成了單個(gè)的 token,沒有充分利用現(xiàn)代加速器的算術(shù)計(jì)算潛力,導(dǎo)致了效率低下。
為了解決這一問題,加速 LLM 推理的方法被提出,既可以增加解碼過程的算術(shù)強(qiáng)度(FLOPs 與總數(shù)據(jù)移動(dòng)的比率),也能減少解碼步驟數(shù)量。這類方法以推測(cè)解碼(speculative decoding)為代表,使用較小的草稿(draft) 模型在每一步生成 token 序列,然后通過較大的原始模型進(jìn)行細(xì)化以獲得可接受的延續(xù)。不過獲得
原文鏈接:大模型推理速度飆升3.6倍,「美杜莎」論文來了,賈揚(yáng)清:最優(yōu)雅加速推理方案之一
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

粵公網(wǎng)安備 44011502001135號(hào)