只激活3.8B參數(shù)，性能比肩同款7B模型！訓練微調(diào)都能用，來自微軟

AIGC動態(tài)歡迎閱讀

原標題：只激活3.8B參數(shù)，性能比肩同款7B模型！訓練微調(diào)都能用，來自微軟
關(guān)鍵字：模型,張量,梯度,函數(shù),性能
文章來源：量子位
內(nèi)容字數(shù)：0字

內(nèi)容摘要：

克雷西發(fā)自凹非寺量子位 | 公眾號 QbitAI只需激活60%的參數(shù)，就能實現(xiàn)與全激活稠密模型相當?shù)男阅堋?br />微軟亞洲研究院的一項新研究，實現(xiàn)了模型的完全稀疏激活，讓推理成本大幅下降。
而且適用范圍廣泛，無論是從頭訓練、繼續(xù)訓練還是微調(diào)，都能提供有效支持。
該方法名為Q-Sparse，在神經(jīng)元級別上實現(xiàn)了模型稀疏化，相比于其他方式粒度更細，在相同推理開銷下，無論性能還是稀疏率都更好。
名稱之中，Q指的是量化（Quantization），意味著它除了普通模型之外，也兼容量化技術(shù)，適用于各種量化方式的模型。
作者進一步表示，如果把Q-Sparse與模型量化技術(shù)結(jié)合，還可以實現(xiàn)更大程度的降本增效。
另外在研究Q-Sparse的同時，團隊也對參數(shù)規(guī)模、稀疏率和模型性能三者之間的關(guān)系進行了深入探尋，并發(fā)現(xiàn)了適用于模型推理優(yōu)化的“Scaling Law”。
有網(wǎng)友認為，這項技術(shù)確實不錯，而且比ReLU要更好。
還有人開啟了許愿模式，表示如果（AMD的）ROCm能比英偉達更快支持這項技術(shù)就好了。
用Top-K函數(shù)實現(xiàn)稀疏化Q-Sparse所做的最核心的操作，是對輸入的張量應(yīng)用Top-K稀疏化函數(shù)。

原文鏈接：只激活3.8B參數(shù)，性能比肩同款7B模型！訓練微調(diào)都能用，來自微軟