CPU反超NPU，llama.cpp生成速度翻5倍！LLM端側部署新范式T-MAC開源

AIGC動態歡迎閱讀

原標題：CPU反超NPU，llama.cpp生成速度翻5倍！LLM端側部署新范式T-MAC開源
關鍵字：權重,模型,范式,矩陣,精度
文章來源：新智元
內容字數：0字

內容摘要：

新智元報道編輯：LRST 好困
【新智元導讀】T-MAC是一種創新的基于查找表（LUT）的方法，專為在CPU上高效執行低比特大型語言模型（LLMs）推理而設計，無需權重反量化，支持混合精度矩陣乘法（mpGEMM），顯著降低了推理開銷并提升了計算速度。?
為增強設備上的智能性，在邊緣設備部署大型語言模型（LLMs）成為了一個趨勢，比如微軟的Windows 11 AI + PC。
目前部署的大語言模型多會量化到低比特。然而，低比特LLMs在推理過程中需要進行低精度權重和高精度激活向量的混合精度矩陣乘法（mpGEMM）。現有的系統由于硬件缺乏對mpGEMM的原生支持，不得不將權重反量化以進行高精度計算。這種間接的方式導致了顯著的推理開銷，并且無法隨著比特數進一步降低而獲得加速。
為此，微軟亞洲研究院、中國科學技術大學、中國科學院大學的研究人員聯合開發了T-MAC。T-MAC采用基于查找表（LUT）的計算范式，無需反量化，直接支持混合精度矩陣乘，其高效的推理性能以及其統一且可擴展的特性為在資源受限的邊緣設備上實際部署低比特LLMs鋪平了道路。代碼：https://github.com/mic

原文鏈接：CPU反超NPU，llama.cpp生成速度翻5倍！LLM端側部署新范式T-MAC開源