從LLM中完全消除矩陣乘法，效果出奇得好，10億參數(shù)跑在FPGA上接近大腦功耗

AIGC動(dòng)態(tài)11個(gè)月前發(fā)布機(jī)器之心

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：從LLM中完全消除矩陣乘法，效果出奇得好，10億參數(shù)跑在FPGA上接近大腦功耗
關(guān)鍵字：模型,語(yǔ)言,權(quán)重,報(bào)告,研究人員
文章來(lái)源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

機(jī)器之心報(bào)道
機(jī)器之心編輯部讓語(yǔ)言模型「輕裝上陣」。一直以來(lái)，矩陣乘法（MatMul）穩(wěn)居神經(jīng)網(wǎng)絡(luò)操作的主導(dǎo)地位，其中很大原因歸結(jié)為 GPU 專門(mén)針對(duì) MatMul 操作進(jìn)行了優(yōu)化。這種優(yōu)化使得 AlexNet 在 ILSVRC2012 挑戰(zhàn)賽中一舉勝出，成為深度學(xué)習(xí)崛起的歷史性標(biāo)志。
在這當(dāng)中，有個(gè)值得注意的點(diǎn)是，AlexNet 利用 GPU 來(lái)提高訓(xùn)練速度，超越了 CPU 的能力，至此，GPU 的加入使得深度學(xué)習(xí)仿佛贏得了「硬件彩票」。盡管 MatMul 在深度學(xué)習(xí)中很流行，但不得不承認(rèn)的是它占據(jù)了計(jì)算開(kāi)銷的主要部分，主要表現(xiàn)為 MatMul 在訓(xùn)練和推理階段消耗大部分執(zhí)行時(shí)間和內(nèi)存訪問(wèn)。
目前為止，研究者已經(jīng)開(kāi)始借助其他更簡(jiǎn)單的操作替代 MatMul，主要有兩種。
第一種策略是使用初等運(yùn)算代替 MatMul，例如，在卷積神經(jīng)網(wǎng)絡(luò) (CNN) 中，用有符號(hào)加法代替乘法；
第二種方法是使用二值或三值化量化，將 MatMul 值在累加之前要么翻轉(zhuǎn)要么清零。比如脈沖神經(jīng)網(wǎng)絡(luò) (SNN) 使用二值激活，而二值化網(wǎng)絡(luò) BNN 使用量化權(quán)重。
在語(yǔ)言建模方面，BitNet 等技術(shù)的出現(xiàn)表明量化

原文鏈接：從LLM中完全消除矩陣乘法，效果出奇得好，10億參數(shù)跑在FPGA上接近大腦功耗