微軟開源爆火1.58bit大模型推理框架!千億參數(shù)模型量化后單CPU可跑,速度每秒5-7個(gè)token

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:微軟開源爆火1.58bit大模型推理框架!千億參數(shù)模型量化后單CPU可跑,速度每秒5-7個(gè)token
關(guān)鍵字:模型,框架,權(quán)重,參數(shù),微軟
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
西風(fēng) 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI微軟開源1bit大模型推理框架!
現(xiàn)在1000億參數(shù)大模型量化后單CPU可跑,速度可達(dá)每秒5-7個(gè)token。
比如在蘋果M2新品上運(yùn)行BitNet b1.58 3B模型,be like:
就是今年爆火論文The Era of 1-bit LLMs的官方代碼實(shí)現(xiàn),開源不到一周GitHub已攬獲7.9k Star。
傳統(tǒng)大模型參數(shù)以16位浮點(diǎn)數(shù)(如FP16或BF16)形式的存儲(chǔ),而BitNet b1.58將其統(tǒng)統(tǒng)變成了三進(jìn)制,也就是{-1, 0, 1}。
這里的“1.58 bit”指每個(gè)參數(shù)可以用1.58位的信息來表示。
轉(zhuǎn)換之后,矩陣中的計(jì)算就只會(huì)涉及到加法,因此會(huì)讓大模型在保持一定精度的同時(shí),顯著減少所需的存儲(chǔ)空間和計(jì)算資源,也顯著提升了在本地設(shè)備上運(yùn)行LLM的可能性。
這個(gè)項(xiàng)目開源后,在X上也受到了一波高度關(guān)注。
千億參數(shù)模型量化后單CPU可跑bitnet.cpp是1bit LLM(例如 BitNet b1.58)的官方推理框架。
該框架配備了一系列優(yōu)化內(nèi)核,支持在CPU上進(jìn)行快速且無損的1.58bit模型推理,未來將擴(kuò)展支持NPU
原文鏈接:微軟開源爆火1.58bit大模型推理框架!千億參數(shù)模型量化后單CPU可跑,速度每秒5-7個(gè)token
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:

粵公網(wǎng)安備 44011502001135號(hào)