<label id="3dn8r"><mark id="3dn8r"></mark></label>

<span id="3dn8r"></span>

<span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

<cite id="muaym"></cite>

<tfoot id="muaym"></tfoot>

手機跑大模型提速4-5倍！微軟亞研院開源新技術，有CPU就行

AIGC動態9個月前發布量子位

743 0 0

手機跑大模型提速4-5倍！微軟亞研院開源新技術，有CPU就行

AIGC動態歡迎閱讀

原標題：手機跑大模型提速4-5倍！微軟亞研院開源新技術，有CPU就行
關鍵字：模型,范式,精度,性能,矩陣
文章來源：量子位
內容字數：0字

內容摘要：

微軟亞洲研究院投稿量子位 | 公眾號 QbitAI有CPU就能跑大模型，性能甚至超過NPU/GPU！
沒錯，為了優化模型端側部署，微軟亞洲研究院提出了一種新技術——T-MAC。
這項技術主打性價比，不僅能讓端側模型跑得更快，而且資源消耗量更少。
咋做到的？？
在CPU上高效部署低比特大語言模型一般來說，要想在手機、PC、樹莓派等端側設備上使用大語言模型，我們需要解決存儲和計算問題。
常見的方法是模型量化，即將模型的參數量化到較低的比特數，比如4比特、3比特甚至更低，這樣模型所需的存儲空間和計算資源就會減少。
不過這也意味著，在執行推理時，需要進行混合精度的矩陣乘法運算（mpGEMM），即用低精度的權重和高精度的激活向量進行計算。
然而，現有的系統和硬件并不原生支持這種混合精度的矩陣乘法，因此它們通常需要將低精度的權重轉換回高精度，這個過程叫做反量化(dequantization)。
但這種方法不僅效率低，而且當比特數進一步降低時，并不能帶來性能上的提升。
對此，新技術T-MAC采用基于查找表（LUT）的計算范式，無需反量化，直接支持混合精度矩陣乘。
這樣，T-MAC不僅提高了推理性能

原文鏈接：手機跑大模型提速4-5倍！微軟亞研院開源新技術，有CPU就行

聯系作者

文章來源：量子位
作者微信：
作者簡介：

# AIGC動態 # 性能 # 模型 # 矩陣 # 精度 # 范式

? 版權聲明

文章版權歸作者所有，未經允許請勿轉載。

Trae官網

相關文章

Trae官網

暫無評論

暫無評論...

主站蜘蛛池模板： 2020因为爱你带字幕免费观看全集| 老司机午夜在线视频免费观| 三年片在线观看免费| 免费少妇a级毛片| 免费无码AV一区二区| 国产最新凸凹视频免费| 最新亚洲人成无码网www电影| 日本高清免费网站| 日韩一级片免费观看| 亚洲真人日本在线| 国产成人高清精品免费观看| 亚洲乱码日产精品一二三| 成人免费无遮挡无码黄漫视频| 亚洲大成色www永久网址| 男女交性永久免费视频播放| 久久精品亚洲综合一品| 亚洲av乱码中文一区二区三区| 成人爱做日本视频免费| 香港经典a毛片免费观看看| 中文字幕第13亚洲另类| 无码国产精品一区二区免费16 | 亚洲色无码一区二区三区| 最近的2019免费中文字幕| 激情内射亚洲一区二区三区| 久久久久久久久无码精品亚洲日韩| 国产精品色午夜视频免费看| sss日本免费完整版在线观看| 久久精品国产亚洲av四虎| 青青在线久青草免费观看| 欧洲亚洲国产精华液| 亚洲欧洲日产国码av系列天堂| 99re免费在线视频| 久久亚洲精品无码av| 伊伊人成亚洲综合人网7777| 欧洲精品99毛片免费高清观看| 亚洲欧美日韩综合俺去了| 久久久久无码专区亚洲av| 91精品国产免费久久久久久青草| 国产亚洲漂亮白嫩美女在线| 久热综合在线亚洲精品| 思思99re66在线精品免费观看|

<cite id="cmaka"></cite>

<li id="cmaka"><dl id="cmaka"></dl></li>

<button id="cmaka"></button>