AIGC動態歡迎閱讀
原標題:大模型端側 CPU 部署最高提效 6 倍!微軟亞研院新開源項目 T-MAC 技術解析來了
關鍵字:比亞迪,華為,字節跳動,模型,范式
文章來源:AI前線
內容字數:0字
內容摘要:
為增強設備上的智能性,在邊緣設備部署大型語言模型(LLMs)成為了一個趨勢,比如微軟的 Windows 11 AI + PC。目前部署的大語言模型多會量化到低比特。然而,低比特 LLMs 在推理過程中需要進行低精度權重和高精度激活向量的混合精度矩陣乘法(mpGEMM)。現有的系統由于硬件缺乏對 mpGEMM 的原生支持,不得不將權重反量化以進行高精度計算。這種間接的方式導致了顯著的推理開銷,并且無法隨著比特數進一步降低而獲得加速。
為此,微軟亞洲研究院的研究員們開發了 T-MAC。T-MAC 采用基于查找表(LUT)的計算范式,無需反量化,直接支持混合精度矩陣乘,其高效的推理性能以及其統一且可擴展的特性為在資源受限的邊緣設備上實際部署低比特 LLMs 鋪平了道路。
此外,當前大模型的部署普遍依賴于專用加速器,如 NPU 和 GPU 等,而 T-MAC 可以擺脫專用加速器的依賴,僅利用 CPU 部署 LLMs,推理速度甚至能夠超過同一片上的專用加速器,使 LLMs 可以部署在各類包括 PC、手機、樹莓派等邊緣端設備。T-MAC 現已開源。在 CPU 上高效部署
低比特大語言模型
T-MA
原文鏈接:大模型端側 CPU 部署最高提效 6 倍!微軟亞研院新開源項目 T-MAC 技術解析來了
聯系作者
文章來源:AI前線
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...