只激活3.8B參數(shù),性能比肩同款7B模型!訓練微調(diào)都能用,來自微軟
AIGC動態(tài)歡迎閱讀
原標題:只激活3.8B參數(shù),性能比肩同款7B模型!訓練微調(diào)都能用,來自微軟
關(guān)鍵字:模型,張量,梯度,函數(shù),性能
文章來源:量子位
內(nèi)容字數(shù):0字
內(nèi)容摘要:
克雷西 發(fā)自 凹非寺量子位 | 公眾號 QbitAI只需激活60%的參數(shù),就能實現(xiàn)與全激活稠密模型相當?shù)男阅堋?br />微軟亞洲研究院的一項新研究,實現(xiàn)了模型的完全稀疏激活,讓推理成本大幅下降。
而且適用范圍廣泛,無論是從頭訓練、繼續(xù)訓練還是微調(diào),都能提供有效支持。
該方法名為Q-Sparse,在神經(jīng)元級別上實現(xiàn)了模型稀疏化,相比于其他方式粒度更細,在相同推理開銷下,無論性能還是稀疏率都更好。
名稱之中,Q指的是量化(Quantization),意味著它除了普通模型之外,也兼容量化技術(shù),適用于各種量化方式的模型。
作者進一步表示,如果把Q-Sparse與模型量化技術(shù)結(jié)合,還可以實現(xiàn)更大程度的降本增效。
另外在研究Q-Sparse的同時,團隊也對參數(shù)規(guī)模、稀疏率和模型性能三者之間的關(guān)系進行了深入探尋,并發(fā)現(xiàn)了適用于模型推理優(yōu)化的“Scaling Law”。
有網(wǎng)友認為,這項技術(shù)確實不錯,而且比ReLU要更好。
還有人開啟了許愿模式,表示如果(AMD的)ROCm能比英偉達更快支持這項技術(shù)就好了。
用Top-K函數(shù)實現(xiàn)稀疏化Q-Sparse所做的最核心的操作,是對輸入的張量應(yīng)用Top-K稀疏化函數(shù)。
原文鏈接:只激活3.8B參數(shù),性能比肩同款7B模型!訓練微調(diào)都能用,來自微軟
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介: