AIGC動態歡迎閱讀
原標題:手機跑大模型提速4-5倍!微軟亞研院開源新技術,有CPU就行
關鍵字:模型,范式,精度,性能,矩陣
文章來源:量子位
內容字數:0字
內容摘要:
微軟亞洲研究院 投稿量子位 | 公眾號 QbitAI有CPU就能跑大模型,性能甚至超過NPU/GPU!
沒錯,為了優化模型端側部署,微軟亞洲研究院提出了一種新技術——T-MAC。
這項技術主打性價比,不僅能讓端側模型跑得更快,而且資源消耗量更少。
咋做到的??
在CPU上高效部署低比特大語言模型一般來說,要想在手機、PC、樹莓派等端側設備上使用大語言模型,我們需要解決存儲和計算問題。
常見的方法是模型量化,即將模型的參數量化到較低的比特數,比如4比特、3比特甚至更低,這樣模型所需的存儲空間和計算資源就會減少。
不過這也意味著,在執行推理時,需要進行混合精度的矩陣乘法運算(mpGEMM),即用低精度的權重和高精度的激活向量進行計算。
然而,現有的系統和硬件并不原生支持這種混合精度的矩陣乘法,因此它們通常需要將低精度的權重轉換回高精度,這個過程叫做反量化(dequantization)。
但這種方法不僅效率低,而且當比特數進一步降低時,并不能帶來性能上的提升。
對此,新技術T-MAC采用基于查找表(LUT)的計算范式,無需反量化,直接支持混合精度矩陣乘。
這樣,T-MAC不僅提高了推理性能
原文鏈接:手機跑大模型提速4-5倍!微軟亞研院開源新技術,有CPU就行
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...