從LLM中完全消除矩陣乘法,效果出奇得好,10億參數(shù)跑在FPGA上接近大腦功耗

AIGC動態(tài)歡迎閱讀
原標題:從LLM中完全消除矩陣乘法,效果出奇得好,10億參數(shù)跑在FPGA上接近大腦功耗
關(guān)鍵字:模型,語言,權(quán)重,報告,研究人員
文章來源:機器之心
內(nèi)容字數(shù):0字
內(nèi)容摘要:
機器之心報道
機器之心編輯部讓語言模型「輕裝上陣」。一直以來,矩陣乘法(MatMul)穩(wěn)居神經(jīng)網(wǎng)絡(luò)操作的主導地位,其中很大原因歸結(jié)為 GPU 專門針對 MatMul 操作進行了優(yōu)化。這種優(yōu)化使得 AlexNet 在 ILSVRC2012 挑戰(zhàn)賽中一舉勝出,成為深度學習崛起的歷史性標志。
在這當中,有個值得注意的點是,AlexNet 利用 GPU 來提高訓練速度,超越了 CPU 的能力,至此,GPU 的加入使得深度學習仿佛贏得了「硬件彩票」。盡管 MatMul 在深度學習中很流行,但不得不承認的是它占據(jù)了計算開銷的主要部分,主要表現(xiàn)為 MatMul 在訓練和推理階段消耗大部分執(zhí)行時間和內(nèi)存訪問。
目前為止,研究者已經(jīng)開始借助其他更簡單的操作替代 MatMul,主要有兩種。
第一種策略是使用初等運算代替 MatMul,例如,在卷積神經(jīng)網(wǎng)絡(luò) (CNN) 中,用有符號加法代替乘法;
第二種方法是使用二值或三值化量化,將 MatMul 值在累加之前要么翻轉(zhuǎn)要么清零。比如脈沖神經(jīng)網(wǎng)絡(luò) (SNN) 使用二值激活,而二值化網(wǎng)絡(luò) BNN 使用量化權(quán)重。
在語言建模方面,BitNet 等技術(shù)的出現(xiàn)表明量化
原文鏈接:從LLM中完全消除矩陣乘法,效果出奇得好,10億參數(shù)跑在FPGA上接近大腦功耗
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺

粵公網(wǎng)安備 44011502001135號