<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        CPU反超NPU,llama.cpp生成速度翻5倍!LLM端側部署新范式T-MAC開源

        AIGC動態11個月前發布 新智元
        399 0 0

        CPU反超NPU,llama.cpp生成速度翻5倍!LLM端側部署新范式T-MAC開源

        AIGC動態歡迎閱讀

        原標題:CPU反超NPU,llama.cpp生成速度翻5倍!LLM端側部署新范式T-MAC開源
        關鍵字:權重,模型,范式,矩陣,精度
        文章來源:新智元
        內容字數:0字

        內容摘要:


        新智元報道編輯:LRST 好困
        【新智元導讀】T-MAC是一種創新的基于查找表(LUT)的方法,專為在CPU上高效執行低比特大型語言模型(LLMs)推理而設計,無需權重反量化,支持混合精度矩陣乘法(mpGEMM),顯著降低了推理開銷并提升了計算速度。?
        為增強設備上的智能性,在邊緣設備部署大型語言模型(LLMs)成為了一個趨勢,比如微軟的Windows 11 AI + PC。
        目前部署的大語言模型多會量化到低比特。然而,低比特LLMs在推理過程中需要進行低精度權重和高精度激活向量的混合精度矩陣乘法(mpGEMM)。現有的系統由于硬件缺乏對mpGEMM的原生支持,不得不將權重反量化以進行高精度計算。這種間接的方式導致了顯著的推理開銷,并且無法隨著比特數進一步降低而獲得加速。
        為此,微軟亞洲研究院、中國科學技術大學、中國科學院大學的研究人員聯合開發了T-MAC。T-MAC采用基于查找表(LUT)的計算范式,無需反量化,直接支持混合精度矩陣乘,其高效的推理性能以及其統一且可擴展的特性為在資源受限的邊緣設備上實際部署低比特LLMs鋪平了道路。代碼:https://github.com/mic


        原文鏈接:CPU反超NPU,llama.cpp生成速度翻5倍!LLM端側部署新范式T-MAC開源

        聯系作者

        文章來源:新智元
        作者微信:
        作者簡介:

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: jizz免费一区二区三区| 国产亚洲精品欧洲在线观看| 黄网站色在线视频免费观看| 99热亚洲色精品国产88| 青青青国产色视频在线观看国产亚洲欧洲国产综合 | 91精品国产免费入口| 亚洲中文字幕乱码一区| 国产日韩成人亚洲丁香婷婷| 99精品视频免费在线观看| 亚洲国产综合AV在线观看| 亚洲成AV人片在WWW色猫咪| 久久不见久久见免费影院| eeuss影院www天堂免费| 亚洲中文无码av永久| 在线精品亚洲一区二区三区| 丁香花免费完整高清观看| 久久九九免费高清视频| 亚洲一区二区三区丝袜| 亚洲中文久久精品无码| 热99re久久免费视精品频软件 | 全免费a级毛片免费**视频| 国内少妇偷人精品视频免费| 亚洲成av人在线观看网站| 亚洲欧洲日产国码久在线观看| 国产亚洲精品免费| 日本最新免费网站| 久久久受www免费人成| 亚洲精品无码专区| 亚洲av综合色区| 亚洲阿v天堂在线2017免费| 老司机在线免费视频| 久久99免费视频| a在线视频免费观看在线视频三区| 2020国产精品亚洲综合网| 水蜜桃亚洲一二三四在线| 亚洲精品色婷婷在线影院| 最近中文字幕mv免费高清电影 | 亚洲综合免费视频| 久久国产乱子精品免费女| 久青草国产免费观看| 国产亚洲一卡2卡3卡4卡新区|