<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        只激活3.8B參數(shù),性能比肩同款7B模型!訓練微調(diào)都能用,來自微軟

        AIGC動態(tài)10個月前發(fā)布 量子位
        385 0 0

        只激活3.8B參數(shù),性能比肩同款7B模型!訓練微調(diào)都能用,來自微軟

        AIGC動態(tài)歡迎閱讀

        原標題:只激活3.8B參數(shù),性能比肩同款7B模型!訓練微調(diào)都能用,來自微軟
        關(guān)鍵字:模型,張量,梯度,函數(shù),性能
        文章來源:量子位
        內(nèi)容字數(shù):0字

        內(nèi)容摘要:


        克雷西 發(fā)自 凹非寺量子位 | 公眾號 QbitAI只需激活60%的參數(shù),就能實現(xiàn)與全激活稠密模型相當?shù)男阅堋?br />微軟亞洲研究院的一項新研究,實現(xiàn)了模型的完全稀疏激活,讓推理成本大幅下降。
        而且適用范圍廣泛,無論是從頭訓練、繼續(xù)訓練還是微調(diào),都能提供有效支持。
        該方法名為Q-Sparse,在神經(jīng)元級別上實現(xiàn)了模型稀疏化,相比于其他方式粒度更細,在相同推理開銷下,無論性能還是稀疏率都更好。
        名稱之中,Q指的是量化(Quantization),意味著它除了普通模型之外,也兼容量化技術(shù),適用于各種量化方式的模型。
        作者進一步表示,如果把Q-Sparse與模型量化技術(shù)結(jié)合,還可以實現(xiàn)更大程度的降本增效。
        另外在研究Q-Sparse的同時,團隊也對參數(shù)規(guī)模、稀疏率和模型性能三者之間的關(guān)系進行了深入探尋,并發(fā)現(xiàn)了適用于模型推理優(yōu)化的“Scaling Law”。
        有網(wǎng)友認為,這項技術(shù)確實不錯,而且比ReLU要更好。
        還有人開啟了許愿模式,表示如果(AMD的)ROCm能比英偉達更快支持這項技術(shù)就好了。
        用Top-K函數(shù)實現(xiàn)稀疏化Q-Sparse所做的最核心的操作,是對輸入的張量應(yīng)用Top-K稀疏化函數(shù)。


        原文鏈接:只激活3.8B參數(shù),性能比肩同款7B模型!訓練微調(diào)都能用,來自微軟

        聯(lián)系作者

        文章來源:量子位
        作者微信:
        作者簡介:

        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲成A∨人片在线观看不卡| 久久91亚洲精品中文字幕| 国产精品成人无码免费| 亚洲av无码乱码在线观看野外| 亚洲精品无码99在线观看| 亚洲黄色在线播放| 国产精品亚洲专一区二区三区| 一区二区三区在线免费观看视频| 久久久久高潮毛片免费全部播放| 好先生在线观看免费播放| 亚洲区不卡顿区在线观看| 国产免费牲交视频免费播放| 69av免费视频| 4338×亚洲全国最大色成网站| 亚洲av无码片区一区二区三区| 日本精品久久久久久久久免费| 很黄很黄的网站免费的| 亚洲国产一级在线观看 | 亚洲欧洲中文日产| 黄色视屏在线免费播放| 亚洲成AV人片一区二区密柚| 99视频在线看观免费| 亚洲精品无码av天堂| 免费在线观看一级片| 免费人妻av无码专区| 亚洲高清一区二区三区| 成人网站免费大全日韩国产| 国内免费高清在线观看| 特级一级毛片免费看| 精品久久免费视频| 久久久亚洲AV波多野结衣| 毛片A级毛片免费播放| 亚洲欧洲精品久久| 美女视频黄的免费视频网页 | 91嫩草国产在线观看免费| 久久亚洲国产视频| 成年女人看片免费视频播放器 | 免费的全黄一级录像带| 亚洲国产日韩精品| 亚洲区小说区图片区QVOD| 无码的免费不卡毛片视频|