<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        大模型推理速度飆升3.6倍,「美杜莎」論文來了,賈揚清:最優雅加速推理方案之一

        AIGC動態2年前 (2024)發布 機器之心
        384 0 0

        大模型推理速度飆升3.6倍,「美杜莎」論文來了,賈揚清:最優雅加速推理方案之一

        AIGC動態歡迎閱讀

        原標題:大模型推理速度飆升3.6倍,「美杜莎」論文來了,賈揚清:最優雅加速推理方案之一
        關鍵字:模型,主干,研究者,候選者,注意力
        文章來源:機器之心
        內容字數:7525字

        內容摘要:


        機器之心報道
        編輯:杜偉、小舟去年,在加速大語言模型推理層面,我們迎來了一個比推測解碼更高效的解決方案 —— 普林斯頓、UIUC 等機構提出的 Medusa。如今,關于 Medusa 終于有了完整技術論文,還提供了新的版本。如你我所知,在大型語言模型(LLM)的運行邏輯中,隨著規模大小的增加,語言生成的質量會隨著提高。不過,這也導致了推理延遲的增加,從而對實際應用構成了重大挑戰。
        從系統角度來看,LLM 推理主要受內存限制,主要延遲瓶頸源于加速器的內存帶寬而非算術計算。這一瓶頸是自回歸解碼的順序性所固有的,其中每次前向傳遞都需要將完整的模型參數從高帶寬內存傳輸到加速器緩存。該過程僅生成了單個的 token,沒有充分利用現代加速器的算術計算潛力,導致了效率低下。
        為了解決這一問題,加速 LLM 推理的方法被提出,既可以增加解碼過程的算術強度(FLOPs 與總數據移動的比率),也能減少解碼步驟數量。這類方法以推測解碼(speculative decoding)為代表,使用較小的草稿(draft) 模型在每一步生成 token 序列,然后通過較大的原始模型進行細化以獲得可接受的延續。不過獲得


        原文鏈接:大模型推理速度飆升3.6倍,「美杜莎」論文來了,賈揚清:最優雅加速推理方案之一

        聯系作者

        文章來源:機器之心
        作者微信:almosthuman2014
        作者簡介:專業的人工智能媒體和產業服務平臺

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲av日韩av无码黑人| 国产成人免费a在线视频app| 国产福利免费视频| 国产麻豆免费观看91| 亚洲日韩精品一区二区三区无码 | 国产传媒在线观看视频免费观看| 国产亚洲成归v人片在线观看 | 国产v精品成人免费视频400条| 亚洲国产精品久久久久婷婷软件| 成人黄网站片免费视频| 免费无码一区二区三区蜜桃大| 亚洲情A成黄在线观看动漫软件| 成年轻人网站色免费看| 国产成人亚洲精品青草天美| 日韩色日韩视频亚洲网站| 久久精品国产免费| 亚洲成?Ⅴ人在线观看无码| 国产精品亚洲精品观看不卡| 可以免费观看的毛片| 亚洲黄网在线观看| 91在线视频免费91| 美女视频黄频a免费大全视频| 亚洲精品天堂成人片?V在线播放| 丝瓜app免费下载网址进入ios| 亚洲AV成人片色在线观看| 69堂人成无码免费视频果冻传媒| 人人狠狠综合久久亚洲88| 最近中文字幕电影大全免费版 | 国产精品亚洲片在线va| 国产精品免费看香蕉| 久久免费观看视频| 亚洲成年人电影在线观看| 国产免费人人看大香伊| 精品四虎免费观看国产高清午夜 | 国产成人亚洲精品影院| 亚洲精品无码中文久久字幕| 国内精自视频品线六区免费| 蜜桃传媒一区二区亚洲AV| 处破痛哭A√18成年片免费| 国产精品极品美女自在线观看免费| 久久精品国产99精品国产亚洲性色|