<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        單卡A100實現百萬token推理,速度快10倍,這是微軟官方的大模型推理加速

        AIGC動態10個月前發布 機器之心
        425 0 0

        單卡A100實現百萬token推理,速度快10倍,這是微軟官方的大模型推理加速

        AIGC動態歡迎閱讀

        原標題:單卡A100實現百萬token推理,速度快10倍,這是微軟官方的大模型推理加速
        關鍵字:上下文,長上,注意力,下文,斜線
        文章來源:機器之心
        內容字數:0字

        內容摘要:


        機器之心報道
        編輯:張倩、陳萍微軟的這項研究讓開發者可以在單卡機器上以 10 倍的速度處理超過 1M 的輸入文本。大型語言模型 (LLM) 已進入長上下文處理時代,其支持的上下文窗口從先前的 128K 猛增到 10M token 級別。
        然而,由于注意力機制的二次復雜度,模型處理輸入提示(即預填充階段)并開始產生第一個 token 可能需要幾分鐘時間。導致首個 token 生成的時間過長,從而嚴重影響了用戶體驗,這也極大地限制了長上下文 LLM 的廣泛應用。
        舉例來說(如圖 2a 所示),在單臺裝有 A100 的機器上為 LLaMA-3-8B 提供服務時,如果提示有 30 萬個 token,模型需要 6 分鐘才能完成預填充( pre-filling)階段,如果提示增加到 100 萬個 token,這個數字將增加到 30 分鐘。自注意力計算的開銷占到了總預填充延遲的 90% 以上,這使其成為 LLM 處理長上下文時的主要瓶頸。現有的加速預填充方法在應用于長上下文 LLM 時通常無法保持可接受的準確性或效率。
        為了解決上述問題,來自微軟、薩里大學的研究者提出了一種旨在加速長序列處理預填充的


        原文鏈接:單卡A100實現百萬token推理,速度快10倍,這是微軟官方的大模型推理加速

        聯系作者

        文章來源:機器之心
        作者微信:almosthuman2014
        作者簡介:專業的人工智能媒體和產業服務平臺

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 西西大胆无码视频免费| 亚洲国产精品碰碰| 黄网站色视频免费观看45分钟| 亚洲 小说区 图片区 都市| 久久嫩草影院免费看夜色| 亚洲AV综合色区无码一区爱AV| 国产免费不卡视频| 亚洲AV无码国产一区二区三区| 国产成人毛片亚洲精品| 最近2019免费中文字幕6| 亚洲AV综合永久无码精品天堂| 亚洲熟妇中文字幕五十中出| 57pao国产成永久免费视频| 亚洲AV无码一区二区乱子仑 | 成人影片一区免费观看| 亚洲精品自拍视频| 亚洲国产精品人人做人人爱| 久久午夜夜伦鲁鲁片免费无码影视| 国产精品亚洲一区二区无码| 久久亚洲国产成人精品性色| 又黄又爽一线毛片免费观看| 精品一区二区三区无码免费视频 | 亚洲欧美熟妇综合久久久久| 亚洲人成人一区二区三区| 免费av欧美国产在钱| a级毛片毛片免费观看永久| 久久亚洲精品高潮综合色a片| 亚洲av鲁丝一区二区三区| 亚洲成av人片在线观看天堂无码| 中文字幕在线免费观看| 中文字幕在线免费看| 理论亚洲区美一区二区三区| 亚洲综合一区二区| 久久精品国产精品亚洲艾| 亚洲成人高清在线| 夫妻免费无码V看片| 亚洲一卡2卡3卡4卡乱码 在线| 乱人伦中文视频在线观看免费| 亚洲精品免费在线视频| 伊人亚洲综合青草青草久热| 在线观看成人免费|