<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        CPU反超NPU,llama.cpp生成速度翻5倍!LLM端側部署新范式T-MAC開源

        AIGC動態9個月前發布 新智元
        398 0 0

        CPU反超NPU,llama.cpp生成速度翻5倍!LLM端側部署新范式T-MAC開源

        AIGC動態歡迎閱讀

        原標題:CPU反超NPU,llama.cpp生成速度翻5倍!LLM端側部署新范式T-MAC開源
        關鍵字:權重,模型,范式,矩陣,精度
        文章來源:新智元
        內容字數:0字

        內容摘要:


        新智元報道編輯:LRST 好困
        【新智元導讀】T-MAC是一種創新的基于查找表(LUT)的方法,專為在CPU上高效執行低比特大型語言模型(LLMs)推理而設計,無需權重反量化,支持混合精度矩陣乘法(mpGEMM),顯著降低了推理開銷并提升了計算速度。?
        為增強設備上的智能性,在邊緣設備部署大型語言模型(LLMs)成為了一個趨勢,比如微軟的Windows 11 AI + PC。
        目前部署的大語言模型多會量化到低比特。然而,低比特LLMs在推理過程中需要進行低精度權重和高精度激活向量的混合精度矩陣乘法(mpGEMM)。現有的系統由于硬件缺乏對mpGEMM的原生支持,不得不將權重反量化以進行高精度計算。這種間接的方式導致了顯著的推理開銷,并且無法隨著比特數進一步降低而獲得加速。
        為此,微軟亞洲研究院、中國科學技術大學、中國科學院大學的研究人員聯合開發了T-MAC。T-MAC采用基于查找表(LUT)的計算范式,無需反量化,直接支持混合精度矩陣乘,其高效的推理性能以及其統一且可擴展的特性為在資源受限的邊緣設備上實際部署低比特LLMs鋪平了道路。代碼:https://github.com/mic


        原文鏈接:CPU反超NPU,llama.cpp生成速度翻5倍!LLM端側部署新范式T-MAC開源

        聯系作者

        文章來源:新智元
        作者微信:
        作者簡介:

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 综合亚洲伊人午夜网 | 好吊妞998视频免费观看在线| 久久99精品免费一区二区| 毛片无码免费无码播放| 香蕉高清免费永久在线视频| 亚洲精品乱码久久久久66| 中文文字幕文字幕亚洲色| caoporn成人免费公开| 在线观看日本免费a∨视频| 亚洲av成人一区二区三区| 精品国产福利尤物免费| 亚洲综合AV在线在线播放| 免费看搞黄视频网站| 亚洲国产a级视频| 久久er国产精品免费观看8| 日韩亚洲欧洲在线com91tv| 国产av无码专区亚洲av毛片搜| 国产精品久久免费视频| 亚洲黄色网站视频| 最近中文字幕无吗高清免费视频| 亚洲精品成a人在线观看夫| 亚洲综合色在线观看亚洲| 苍井空亚洲精品AA片在线播放 | 天堂在线免费观看中文版| 国产精品无码亚洲一区二区三区| 免费在线观看污网站| 久久久久免费精品国产| 亚洲av无码不卡久久| 四虎亚洲国产成人久久精品| 精品久久亚洲中文无码| 国产99视频精品免费视频7| 中文在线免费不卡视频| 亚洲一区精品视频在线| 亚洲国产精品成人一区| 97视频免费观看2区| 亚洲国产成人久久精品大牛影视| 77777亚洲午夜久久多人| 久久经典免费视频| 久久99精品免费一区二区| 国产日本亚洲一区二区三区| 亚洲午夜成人精品电影在线观看|