從LLM中完全消除矩陣乘法,效果出奇得好,10億參數(shù)跑在FPGA上接近大腦功耗
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:從LLM中完全消除矩陣乘法,效果出奇得好,10億參數(shù)跑在FPGA上接近大腦功耗
關(guān)鍵字:模型,語(yǔ)言,權(quán)重,報(bào)告,研究人員
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心報(bào)道
機(jī)器之心編輯部讓語(yǔ)言模型「輕裝上陣」。一直以來(lái),矩陣乘法(MatMul)穩(wěn)居神經(jīng)網(wǎng)絡(luò)操作的主導(dǎo)地位,其中很大原因歸結(jié)為 GPU 專門(mén)針對(duì) MatMul 操作進(jìn)行了優(yōu)化。這種優(yōu)化使得 AlexNet 在 ILSVRC2012 挑戰(zhàn)賽中一舉勝出,成為深度學(xué)習(xí)崛起的歷史性標(biāo)志。
在這當(dāng)中,有個(gè)值得注意的點(diǎn)是,AlexNet 利用 GPU 來(lái)提高訓(xùn)練速度,超越了 CPU 的能力,至此,GPU 的加入使得深度學(xué)習(xí)仿佛贏得了「硬件彩票」。盡管 MatMul 在深度學(xué)習(xí)中很流行,但不得不承認(rèn)的是它占據(jù)了計(jì)算開(kāi)銷的主要部分,主要表現(xiàn)為 MatMul 在訓(xùn)練和推理階段消耗大部分執(zhí)行時(shí)間和內(nèi)存訪問(wèn)。
目前為止,研究者已經(jīng)開(kāi)始借助其他更簡(jiǎn)單的操作替代 MatMul,主要有兩種。
第一種策略是使用初等運(yùn)算代替 MatMul,例如,在卷積神經(jīng)網(wǎng)絡(luò) (CNN) 中,用有符號(hào)加法代替乘法;
第二種方法是使用二值或三值化量化,將 MatMul 值在累加之前要么翻轉(zhuǎn)要么清零。比如脈沖神經(jīng)網(wǎng)絡(luò) (SNN) 使用二值激活,而二值化網(wǎng)絡(luò) BNN 使用量化權(quán)重。
在語(yǔ)言建模方面,BitNet 等技術(shù)的出現(xiàn)表明量化
原文鏈接:從LLM中完全消除矩陣乘法,效果出奇得好,10億參數(shù)跑在FPGA上接近大腦功耗
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)