<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        剛剛,DeepSeek又發(fā)高質(zhì)量論文,梁文鋒合著!

        AIGC動態(tài)3個月前發(fā)布 智東西
        255 0 0

        這篇論文的第一作者在實(shí)習(xí)期間完成了研究。

        剛剛,DeepSeek又發(fā)高質(zhì)量論文,梁文鋒合著!

        原標(biāo)題:剛剛,DeepSeek又發(fā)高質(zhì)量論文梁文鋒合著!
        文章來源:智東西
        內(nèi)容字?jǐn)?shù):6730字

        DeepSeek發(fā)布新型稀疏注意力機(jī)制NSA:長上下文訓(xùn)練推理提速利器

        近日,DeepSeek團(tuán)隊發(fā)布論文,介紹了一種名為NSA(Novel Sparse Attention)的改進(jìn)型稀疏注意力機(jī)制,該機(jī)制在長上下文訓(xùn)練和推理中展現(xiàn)出顯著的速度提升,尤其在解碼階段最高可達(dá)11.6倍。論文第一作者Jingyang Yuan在實(shí)習(xí)期間完成了這項研究,DeepSeek創(chuàng)始人兼CEO梁文鋒也參與其中。

        1. 現(xiàn)有稀疏注意力機(jī)制的缺陷與NSA的優(yōu)勢

        傳統(tǒng)的注意力機(jī)制在處理長序列時計算復(fù)雜度極高,限制了長文本建模的發(fā)展。現(xiàn)有的稀疏注意力機(jī)制雖然在理論上降低了計算復(fù)雜度,但在實(shí)際應(yīng)用中往往未能有效降低延遲,部分原因在于它們只在推理階段或預(yù)填充階段應(yīng)用稀疏性,缺乏對訓(xùn)練階段的支持,且難以適應(yīng)現(xiàn)代高效的解碼架構(gòu)。NSA則旨在解決這些問題,通過在訓(xùn)練和推理階段都應(yīng)用稀疏性,并針對現(xiàn)代硬件進(jìn)行優(yōu)化,實(shí)現(xiàn)全階段加速。

        2. NSA的三大核心組件及軟硬件協(xié)同優(yōu)化

        NSA的核心思想是通過動態(tài)分層稀疏策略,結(jié)合粗粒度token壓縮和細(xì)粒度token選擇,在提升效率的同時保留模型對全局長上下文感知能力和局部精確性。其三大核心組件包括:

        1. 動態(tài)分層稀疏策略:根據(jù)不同層級的需求動態(tài)調(diào)整稀疏程度。
        2. 粗粒度token壓縮:將鍵值對聚合成塊級表示,捕捉高層語義信息。
        3. 精粒度token選擇:根據(jù)重要性分?jǐn)?shù)選擇關(guān)鍵的細(xì)粒度信息。

        此外,NSA在Triton上實(shí)現(xiàn)了硬件對齊的稀疏注意力內(nèi)核,并針對共享KV緩存的架構(gòu)(如GQA和MQA)進(jìn)行了優(yōu)化,通過以組為中心的數(shù)據(jù)加載、共享KV加載和網(wǎng)格循環(huán)調(diào)度等策略,實(shí)現(xiàn)了近乎最優(yōu)的計算強(qiáng)度平衡。

        3. NSA的性能表現(xiàn):訓(xùn)練提速6-9倍,推理提速高達(dá)11.6倍

        DeepSeek使用一個27B參數(shù)的LLM模型(其中3B為活躍參數(shù))對NSA進(jìn)行了評估。結(jié)果顯示,在8卡A100計算集群上,NSA的前向傳播和反向傳播速度分別比全注意力快9倍和6倍。在長序列解碼時,NSA相較于全注意力模型速度顯著提升,最高可達(dá)11.6倍。在通用基準(zhǔn)、長上下文任務(wù)和基于指令的推理上,采用NSA機(jī)制的模型與全注意力模型相當(dāng)或表現(xiàn)更優(yōu)。

        4. 總結(jié)

        NSA作為一種新型的稀疏注意力機(jī)制,通過軟硬件協(xié)同深度優(yōu)化,有效解決了現(xiàn)有稀疏注意力機(jī)制的缺陷,在長上下文訓(xùn)練和推理中實(shí)現(xiàn)了顯著的加速效果,為下一代大語言模型的發(fā)展提供了新的可能性。其在訓(xùn)練階段的應(yīng)用以及對現(xiàn)代硬件的優(yōu)化,使其成為一個極具性價比的解決方案。


        聯(lián)系作者

        文章來源:智東西
        作者微信:
        作者簡介:智能產(chǎn)業(yè)新媒體!智東西專注報道人工智能主導(dǎo)的前沿技術(shù)發(fā)展,和技術(shù)應(yīng)用帶來的千行百業(yè)產(chǎn)業(yè)升級。聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。

        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲av日韩片在线观看| 曰韩无码AV片免费播放不卡| 国产亚洲av片在线观看18女人| 成人免费在线看片| 黄 色一级 成 人网站免费| 亚洲av永久中文无码精品综合 | 亚洲精品一二三区| 91亚洲国产在人线播放午夜 | 日本一区二区三区免费高清在线 | 精品亚洲福利一区二区| 亚洲欧洲国产视频| 久久精品国产亚洲AV麻豆王友容| 免费人成无码大片在线观看| 啦啦啦在线免费视频| 波多野结衣在线免费观看| 四虎国产成人永久精品免费| a在线免费观看视频| 国产vA免费精品高清在线观看| 精品无码专区亚洲| 亚洲AV成人无码网站| 亚洲日本久久久午夜精品| 亚洲女人18毛片水真多| 亚洲黄色在线视频| 91亚洲va在线天线va天堂va国产| 久久精品国产96精品亚洲| 国产成人亚洲综合无码精品 | a毛片在线看片免费| 一级毛片aaaaaa视频免费看| 大片免费观看92在线视频线视频| 国产精品亚洲精品日韩动图| 处破女第一次亚洲18分钟| 欧美亚洲国产SUV| 自拍偷自拍亚洲精品偷一| 亚洲av色香蕉一区二区三区| jizzjizz亚洲日本少妇| 国产AV无码专区亚洲AV蜜芽| 风间由美在线亚洲一区| 老司机午夜精品视频在线观看免费| 国产天堂亚洲精品| 欧亚一级毛片免费看| 中文字幕在线免费观看视频|