<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        手機跑大模型提速4-5倍!微軟亞研院開源新技術,有CPU就行

        AIGC動態9個月前發布 量子位
        743 0 0

        手機跑大模型提速4-5倍!微軟亞研院開源新技術,有CPU就行

        AIGC動態歡迎閱讀

        原標題:手機跑大模型提速4-5倍!微軟亞研院開源新技術,有CPU就行
        關鍵字:模型,范式,精度,性能,矩陣
        文章來源:量子位
        內容字數:0字

        內容摘要:


        微軟亞洲研究院 投稿量子位 | 公眾號 QbitAI有CPU就能跑大模型,性能甚至超過NPU/GPU!
        沒錯,為了優化模型端側部署,微軟亞洲研究院提出了一種新技術——T-MAC。
        這項技術主打性價比,不僅能讓端側模型跑得更快,而且資源消耗量更少。
        咋做到的??
        在CPU上高效部署低比特大語言模型一般來說,要想在手機、PC、樹莓派等端側設備上使用大語言模型,我們需要解決存儲和計算問題。
        常見的方法是模型量化,即將模型的參數量化到較低的比特數,比如4比特、3比特甚至更低,這樣模型所需的存儲空間和計算資源就會減少。
        不過這也意味著,在執行推理時,需要進行混合精度的矩陣乘法運算(mpGEMM),即用低精度的權重和高精度的激活向量進行計算。
        然而,現有的系統和硬件并不原生支持這種混合精度的矩陣乘法,因此它們通常需要將低精度的權重轉換回高精度,這個過程叫做反量化(dequantization)。
        但這種方法不僅效率低,而且當比特數進一步降低時,并不能帶來性能上的提升。
        對此,新技術T-MAC采用基于查找表(LUT)的計算范式,無需反量化,直接支持混合精度矩陣乘。
        這樣,T-MAC不僅提高了推理性能


        原文鏈接:手機跑大模型提速4-5倍!微軟亞研院開源新技術,有CPU就行

        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 4455永久在线观免费看| 无码国产精品一区二区免费3p| 丝袜熟女国偷自产中文字幕亚洲| 国产又粗又长又硬免费视频 | 日本免费一区二区久久人人澡| 日本人成在线视频免费播放| 久久久亚洲精品蜜桃臀 | 精品亚洲麻豆1区2区3区| 十八禁视频在线观看免费无码无遮挡骂过 | 亚洲av日韩av无码| 日韩精品无码免费专区网站| 亚洲自偷自偷精品| 国产免费女女脚奴视频网| 亚洲视频无码高清在线| 国产精品免费一级在线观看| 午夜在线免费视频| 中文字幕亚洲一区| 伊人久久免费视频| 亚洲综合久久精品无码色欲| 国产成人3p视频免费观看| a级毛片免费观看在线| 亚洲AV综合色区无码一区| 嘿嘿嘿视频免费网站在线观看| 亚洲精品国产va在线观看蜜芽| 亚洲国产精品无码中文字| 18禁成人网站免费观看| 亚洲国产成人91精品| 日韩免费观看的一级毛片| 国产97视频人人做人人爱免费| 中文免费观看视频网站| 亚洲人成网站在线在线观看| 成人伊人亚洲人综合网站222| 亚洲娇小性xxxx色| 亚洲国产成人精品久久久国产成人一区二区三区综 | 亚洲精品第一国产综合亚AV| 永久黄网站色视频免费观看| 视频免费1区二区三区| 亚洲AV第一页国产精品| 四虎影视在线永久免费看黄| 久久国产精品免费视频| 亚洲成a人片在线不卡一二三区 |