<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        剛剛,DeepSeek又發(fā)高質(zhì)量論文,梁文鋒合著!

        AIGC動態(tài)3個月前發(fā)布 智東西
        255 0 0

        這篇論文的第一作者在實(shí)習(xí)期間完成了研究。

        剛剛,DeepSeek又發(fā)高質(zhì)量論文,梁文鋒合著!

        原標(biāo)題:剛剛,DeepSeek又發(fā)高質(zhì)量論文梁文鋒合著!
        文章來源:智東西
        內(nèi)容字?jǐn)?shù):6730字

        DeepSeek發(fā)布新型稀疏注意力機(jī)制NSA:長上下文訓(xùn)練推理提速利器

        近日,DeepSeek團(tuán)隊發(fā)布論文,介紹了一種名為NSA(Novel Sparse Attention)的改進(jìn)型稀疏注意力機(jī)制,該機(jī)制在長上下文訓(xùn)練和推理中展現(xiàn)出顯著的速度提升,尤其在解碼階段最高可達(dá)11.6倍。論文第一作者Jingyang Yuan在實(shí)習(xí)期間完成了這項研究,DeepSeek創(chuàng)始人兼CEO梁文鋒也參與其中。

        1. 現(xiàn)有稀疏注意力機(jī)制的缺陷與NSA的優(yōu)勢

        傳統(tǒng)的注意力機(jī)制在處理長序列時計算復(fù)雜度極高,限制了長文本建模的發(fā)展。現(xiàn)有的稀疏注意力機(jī)制雖然在理論上降低了計算復(fù)雜度,但在實(shí)際應(yīng)用中往往未能有效降低延遲,部分原因在于它們只在推理階段或預(yù)填充階段應(yīng)用稀疏性,缺乏對訓(xùn)練階段的支持,且難以適應(yīng)現(xiàn)代高效的解碼架構(gòu)。NSA則旨在解決這些問題,通過在訓(xùn)練和推理階段都應(yīng)用稀疏性,并針對現(xiàn)代硬件進(jìn)行優(yōu)化,實(shí)現(xiàn)全階段加速。

        2. NSA的三大核心組件及軟硬件協(xié)同優(yōu)化

        NSA的核心思想是通過動態(tài)分層稀疏策略,結(jié)合粗粒度token壓縮和細(xì)粒度token選擇,在提升效率的同時保留模型對全局長上下文感知能力和局部精確性。其三大核心組件包括:

        1. 動態(tài)分層稀疏策略:根據(jù)不同層級的需求動態(tài)調(diào)整稀疏程度。
        2. 粗粒度token壓縮:將鍵值對聚合成塊級表示,捕捉高層語義信息。
        3. 精粒度token選擇:根據(jù)重要性分?jǐn)?shù)選擇關(guān)鍵的細(xì)粒度信息。

        此外,NSA在Triton上實(shí)現(xiàn)了硬件對齊的稀疏注意力內(nèi)核,并針對共享KV緩存的架構(gòu)(如GQA和MQA)進(jìn)行了優(yōu)化,通過以組為中心的數(shù)據(jù)加載、共享KV加載和網(wǎng)格循環(huán)調(diào)度等策略,實(shí)現(xiàn)了近乎最優(yōu)的計算強(qiáng)度平衡。

        3. NSA的性能表現(xiàn):訓(xùn)練提速6-9倍,推理提速高達(dá)11.6倍

        DeepSeek使用一個27B參數(shù)的LLM模型(其中3B為活躍參數(shù))對NSA進(jìn)行了評估。結(jié)果顯示,在8卡A100計算集群上,NSA的前向傳播和反向傳播速度分別比全注意力快9倍和6倍。在長序列解碼時,NSA相較于全注意力模型速度顯著提升,最高可達(dá)11.6倍。在通用基準(zhǔn)、長上下文任務(wù)和基于指令的推理上,采用NSA機(jī)制的模型與全注意力模型相當(dāng)或表現(xiàn)更優(yōu)。

        4. 總結(jié)

        NSA作為一種新型的稀疏注意力機(jī)制,通過軟硬件協(xié)同深度優(yōu)化,有效解決了現(xiàn)有稀疏注意力機(jī)制的缺陷,在長上下文訓(xùn)練和推理中實(shí)現(xiàn)了顯著的加速效果,為下一代大語言模型的發(fā)展提供了新的可能性。其在訓(xùn)練階段的應(yīng)用以及對現(xiàn)代硬件的優(yōu)化,使其成為一個極具性價比的解決方案。


        聯(lián)系作者

        文章來源:智東西
        作者微信:
        作者簡介:智能產(chǎn)業(yè)新媒體!智東西專注報道人工智能主導(dǎo)的前沿技術(shù)發(fā)展,和技術(shù)應(yīng)用帶來的千行百業(yè)產(chǎn)業(yè)升級。聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。

        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 男女啪啪永久免费观看网站| 久久精品国产亚洲AV大全| 亚洲?V无码乱码国产精品| 亚洲精品乱码久久久久久蜜桃不卡| 久久久久亚洲精品日久生情| 爱情岛亚洲论坛在线观看| 最近2019年免费中文字幕高清 | 一级一片免费视频播放| 亚洲成人免费网站| 亚洲人成无码www久久久| 亚洲 暴爽 AV人人爽日日碰| 中文字幕乱码一区二区免费| 国产精品免费看香蕉| 亚洲精品456在线播放| 一级女人18片毛片免费视频 | 久久青草91免费观看| 俄罗斯极品美女毛片免费播放| 亚洲福利视频网址| 成人黄18免费视频| 7777久久亚洲中文字幕蜜桃| 亚洲香蕉免费有线视频| 亚洲日韩一区二区一无码| 18禁无遮挡无码国产免费网站| 亚洲嫩草影院在线观看| 日本在线免费观看| 亚洲综合激情六月婷婷在线观看| 免费a级毛片高清视频不卡| 亚洲第一永久在线观看| 全免费一级毛片在线播放| 大片免费观看92在线视频线视频| 国产做床爱无遮挡免费视频| 亚洲日韩AV无码一区二区三区人| 免费国产在线观看老王影院| 青柠影视在线观看免费高清| 亚洲av成人一区二区三区| 69av免费观看| 亚洲国产成人久久综合| 女人被男人桶得好爽免费视频| 亚洲国产一区在线观看| 91精品免费国产高清在线| 亚洲自偷自偷精品|