<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        手機跑大模型提速4-5倍!微軟亞研院開源新技術,有CPU就行

        AIGC動態1年前 (2024)發布 量子位
        765 0 0

        手機跑大模型提速4-5倍!微軟亞研院開源新技術,有CPU就行

        AIGC動態歡迎閱讀

        原標題:手機跑大模型提速4-5倍!微軟亞研院開源新技術,有CPU就行
        關鍵字:模型,范式,精度,性能,矩陣
        文章來源:量子位
        內容字數:0字

        內容摘要:


        微軟亞洲研究院 投稿量子位 | 公眾號 QbitAI有CPU就能跑大模型,性能甚至超過NPU/GPU!
        沒錯,為了優化模型端側部署,微軟亞洲研究院提出了一種新技術——T-MAC。
        這項技術主打性價比,不僅能讓端側模型跑得更快,而且資源消耗量更少。
        咋做到的??
        在CPU上高效部署低比特大語言模型一般來說,要想在手機、PC、樹莓派等端側設備上使用大語言模型,我們需要解決存儲和計算問題。
        常見的方法是模型量化,即將模型的參數量化到較低的比特數,比如4比特、3比特甚至更低,這樣模型所需的存儲空間和計算資源就會減少。
        不過這也意味著,在執行推理時,需要進行混合精度的矩陣乘法運算(mpGEMM),即用低精度的權重和高精度的激活向量進行計算。
        然而,現有的系統和硬件并不原生支持這種混合精度的矩陣乘法,因此它們通常需要將低精度的權重轉換回高精度,這個過程叫做反量化(dequantization)。
        但這種方法不僅效率低,而且當比特數進一步降低時,并不能帶來性能上的提升。
        對此,新技術T-MAC采用基于查找表(LUT)的計算范式,無需反量化,直接支持混合精度矩陣乘。
        這樣,T-MAC不僅提高了推理性能


        原文鏈接:手機跑大模型提速4-5倍!微軟亞研院開源新技術,有CPU就行

        聯系作者

        文章來源:量子位
        作者微信:
        作者簡介:

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲精品A在线观看| 红杏亚洲影院一区二区三区| 午夜宅男在线永久免费观看网| 美女视频黄免费亚洲| 亚洲色偷拍区另类无码专区| 色婷婷亚洲十月十月色天| 亚洲日韩一区二区一无码| 成在线人免费无码高潮喷水| 丁香花免费高清视频完整版| 亚洲性猛交xx乱| caoporn国产精品免费| 国产1024精品视频专区免费| 亚洲一区二区三区四区视频| 免费无码又爽又刺激网站| 一个人看的www在线观看免费| 亚洲1区1区3区4区产品乱码芒果 | 一区二区三区免费视频网站| 黄网站色在线视频免费观看| 亚洲乱码国产一区三区| 精品免费AV一区二区三区| 久久久久久久久久免免费精品| 毛片基地免费视频a| 亚洲国产高清人在线| fc2成年免费共享视频网站| 久久久久久a亚洲欧洲aⅴ| 男女啪啪免费体验区| 日韩精品视频免费网址| 亚洲韩国—中文字幕| 免费在线视频你懂的| 黑人精品videos亚洲人| 最近免费中文字幕大全高清大全1| 亚洲女初尝黑人巨高清| 国产免费A∨在线播放| 亚洲AV无码久久| 性无码免费一区二区三区在线| 亚洲中文字幕无码一久久区| 深夜特黄a级毛片免费播放| 国产亚洲精品无码成人| 国产免费不卡v片在线观看| 青青草97国产精品免费观看| 亚洲AV无码一区二区二三区入口 |