<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        CPU反超NPU,llama.cpp生成速度翻5倍!LLM端側部署新范式T-MAC開源

        AIGC動態1年前 (2024)發布 新智元
        403 0 0

        CPU反超NPU,llama.cpp生成速度翻5倍!LLM端側部署新范式T-MAC開源

        AIGC動態歡迎閱讀

        原標題:CPU反超NPU,llama.cpp生成速度翻5倍!LLM端側部署新范式T-MAC開源
        關鍵字:權重,模型,范式,矩陣,精度
        文章來源:新智元
        內容字數:0字

        內容摘要:


        新智元報道編輯:LRST 好困
        【新智元導讀】T-MAC是一種創新的基于查找表(LUT)的方法,專為在CPU上高效執行低比特大型語言模型(LLMs)推理而設計,無需權重反量化,支持混合精度矩陣乘法(mpGEMM),顯著降低了推理開銷并提升了計算速度。?
        為增強設備上的智能性,在邊緣設備部署大型語言模型(LLMs)成為了一個趨勢,比如微軟的Windows 11 AI + PC。
        目前部署的大語言模型多會量化到低比特。然而,低比特LLMs在推理過程中需要進行低精度權重和高精度激活向量的混合精度矩陣乘法(mpGEMM)。現有的系統由于硬件缺乏對mpGEMM的原生支持,不得不將權重反量化以進行高精度計算。這種間接的方式導致了顯著的推理開銷,并且無法隨著比特數進一步降低而獲得加速。
        為此,微軟亞洲研究院、中國科學技術大學、中國科學院大學的研究人員聯合開發了T-MAC。T-MAC采用基于查找表(LUT)的計算范式,無需反量化,直接支持混合精度矩陣乘,其高效的推理性能以及其統一且可擴展的特性為在資源受限的邊緣設備上實際部署低比特LLMs鋪平了道路。代碼:https://github.com/mic


        原文鏈接:CPU反超NPU,llama.cpp生成速度翻5倍!LLM端側部署新范式T-MAC開源

        聯系作者

        文章來源:新智元
        作者微信:
        作者簡介:

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲AV无码成人精品区蜜桃| 国产99视频精品免费视频7| 在线观看视频免费国语| 亚洲人成777在线播放| 最近中文字幕电影大全免费版| 国产亚洲av人片在线观看| 国产精品黄页免费高清在线观看 | 亚洲AV综合永久无码精品天堂| 99久久久精品免费观看国产| 亚洲一级高清在线中文字幕| 99热在线精品免费全部my| 亚洲精品伦理熟女国产一区二区 | 成人性生交大片免费看中文| 亚洲热妇无码AV在线播放| 国产婷婷成人久久Av免费高清 | 亚洲高清一区二区三区| 国产成人无码a区在线观看视频免费| 国产精品亚洲精品久久精品| 亚洲成人影院在线观看| 成人精品一区二区三区不卡免费看| 亚洲人成网www| 美女视频黄的全免费视频| 国产精品亚洲综合一区在线观看 | 免费v片在线观看视频网站| 伊人久久五月丁香综合中文亚洲| 日韩中文字幕在线免费观看| 高清免费久久午夜精品| 麻豆亚洲AV永久无码精品久久| 可以免费看黄的网站| 九九久久精品国产免费看小说| 亚洲AV无码不卡在线播放| 国产福利在线观看免费第一福利| 国产偷国产偷亚洲高清在线| 精品国产_亚洲人成在线高清| 免费精品国产日韩热久久| 杨幂最新免费特级毛片| 亚洲国产人成网站在线电影动漫| 免费特级黄毛片在线成人观看| 成人av片无码免费天天看| 国产成人亚洲精品| 亚洲五月综合缴情在线观看|