<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        單卡A100實現百萬token推理,速度快10倍,這是微軟官方的大模型推理加速

        AIGC動態1年前 (2024)發布 機器之心
        429 0 0

        單卡A100實現百萬token推理,速度快10倍,這是微軟官方的大模型推理加速

        AIGC動態歡迎閱讀

        原標題:單卡A100實現百萬token推理,速度快10倍,這是微軟官方的大模型推理加速
        關鍵字:上下文,長上,注意力,下文,斜線
        文章來源:機器之心
        內容字數:0字

        內容摘要:


        機器之心報道
        編輯:張倩、陳萍微軟的這項研究讓開發者可以在單卡機器上以 10 倍的速度處理超過 1M 的輸入文本。大型語言模型 (LLM) 已進入長上下文處理時代,其支持的上下文窗口從先前的 128K 猛增到 10M token 級別。
        然而,由于注意力機制的二次復雜度,模型處理輸入提示(即預填充階段)并開始產生第一個 token 可能需要幾分鐘時間。導致首個 token 生成的時間過長,從而嚴重影響了用戶體驗,這也極大地限制了長上下文 LLM 的廣泛應用。
        舉例來說(如圖 2a 所示),在單臺裝有 A100 的機器上為 LLaMA-3-8B 提供服務時,如果提示有 30 萬個 token,模型需要 6 分鐘才能完成預填充( pre-filling)階段,如果提示增加到 100 萬個 token,這個數字將增加到 30 分鐘。自注意力計算的開銷占到了總預填充延遲的 90% 以上,這使其成為 LLM 處理長上下文時的主要瓶頸。現有的加速預填充方法在應用于長上下文 LLM 時通常無法保持可接受的準確性或效率。
        為了解決上述問題,來自微軟、薩里大學的研究者提出了一種旨在加速長序列處理預填充的


        原文鏈接:單卡A100實現百萬token推理,速度快10倍,這是微軟官方的大模型推理加速

        聯系作者

        文章來源:機器之心
        作者微信:almosthuman2014
        作者簡介:專業的人工智能媒體和產業服務平臺

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 中文字幕成人免费高清在线 | 亚洲乱码日产精品一二三| 亚洲精品无码av片| 久久久久久噜噜精品免费直播 | 亚洲一区动漫卡通在线播放| 丰满亚洲大尺度无码无码专线 | 国产97视频人人做人人爱免费| 中文字幕免费观看| 亚洲区不卡顿区在线观看| 亚洲人成在线播放| 波多野结衣免费一区视频 | 中文字幕影片免费在线观看| 伊伊人成亚洲综合人网7777| 精品久久久久久久久亚洲偷窥女厕| 国产精品无码一区二区三区免费 | 69视频免费在线观看| 亚洲欧洲视频在线观看| 91精品成人免费国产| 四虎影视在线永久免费观看| 亚洲精品第一综合99久久| 69国产精品视频免费| 久久久久亚洲精品影视| 国产精品极品美女自在线观看免费| 伊人婷婷综合缴情亚洲五月| 99国产精品视频免费观看| 亚洲AV无码专区电影在线观看| www成人免费视频| 亚洲国产综合人成综合网站| 国产色无码精品视频免费| 亚洲伊人久久大香线焦| 亚洲国产av无码精品| 免费国产黄网站在线观看动图| 日本视频免费在线| 久久亚洲精品无码gv| 暖暖日本免费在线视频 | 男人进去女人爽免费视频国产 | 又硬又粗又长又爽免费看| 免费国产成人午夜私人影视| 亚洲高清一区二区三区电影| 国产精品亚洲玖玖玖在线观看| 亚洲色图在线观看|