<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        手機跑大模型提速4-5倍!微軟亞研院開源新技術,有CPU就行

        AIGC動態9個月前發布 量子位
        743 0 0

        手機跑大模型提速4-5倍!微軟亞研院開源新技術,有CPU就行

        AIGC動態歡迎閱讀

        原標題:手機跑大模型提速4-5倍!微軟亞研院開源新技術,有CPU就行
        關鍵字:模型,范式,精度,性能,矩陣
        文章來源:量子位
        內容字數:0字

        內容摘要:


        微軟亞洲研究院 投稿量子位 | 公眾號 QbitAI有CPU就能跑大模型,性能甚至超過NPU/GPU!
        沒錯,為了優化模型端側部署,微軟亞洲研究院提出了一種新技術——T-MAC。
        這項技術主打性價比,不僅能讓端側模型跑得更快,而且資源消耗量更少。
        咋做到的??
        在CPU上高效部署低比特大語言模型一般來說,要想在手機、PC、樹莓派等端側設備上使用大語言模型,我們需要解決存儲和計算問題。
        常見的方法是模型量化,即將模型的參數量化到較低的比特數,比如4比特、3比特甚至更低,這樣模型所需的存儲空間和計算資源就會減少。
        不過這也意味著,在執行推理時,需要進行混合精度的矩陣乘法運算(mpGEMM),即用低精度的權重和高精度的激活向量進行計算。
        然而,現有的系統和硬件并不原生支持這種混合精度的矩陣乘法,因此它們通常需要將低精度的權重轉換回高精度,這個過程叫做反量化(dequantization)。
        但這種方法不僅效率低,而且當比特數進一步降低時,并不能帶來性能上的提升。
        對此,新技術T-MAC采用基于查找表(LUT)的計算范式,無需反量化,直接支持混合精度矩陣乘。
        這樣,T-MAC不僅提高了推理性能


        原文鏈接:手機跑大模型提速4-5倍!微軟亞研院開源新技術,有CPU就行

        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 2020因为爱你带字幕免费观看全集| 老司机午夜在线视频免费观| 三年片在线观看免费| 免费少妇a级毛片| 免费无码AV一区二区| 国产最新凸凹视频免费| 最新亚洲人成无码网www电影| 日本高清免费网站| 日韩一级片免费观看| 亚洲真人日本在线| 国产成人高清精品免费观看| 亚洲乱码日产精品一二三| 成人免费无遮挡无码黄漫视频| 亚洲大成色www永久网址| 男女交性永久免费视频播放| 久久精品亚洲综合一品| 亚洲av乱码中文一区二区三区| 成人爱做日本视频免费| 香港经典a毛片免费观看看| 中文字幕第13亚洲另类| 无码国产精品一区二区免费16 | 亚洲色无码一区二区三区| 最近的2019免费中文字幕| 激情内射亚洲一区二区三区| 久久久久久久久无码精品亚洲日韩| 国产精品色午夜视频免费看| sss日本免费完整版在线观看| 久久精品国产亚洲av四虎| 青青在线久青草免费观看| 欧洲亚洲国产精华液| 亚洲欧洲日产国码av系列天堂| 99re免费在线视频| 久久亚洲精品无码av| 伊伊人成亚洲综合人网7777| 欧洲精品99毛片免费高清观看| 亚洲欧美日韩综合俺去了| 久久久久无码专区亚洲av| 91精品国产免费久久久久久青草| 国产亚洲漂亮白嫩美女在线| 久热综合在线亚洲精品| 思思99re66在线精品免费观看|