<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        一文比較 Kimi 和 deepseek 的兩篇稀疏注意力機制論文

        AIGC動態5個月前發布 JioNLP
        511 0 0

        Kimi 和 Deepseek 的兩篇論文比較與解析

        一文比較 Kimi 和 deepseek 的兩篇稀疏注意力機制論文

        原標題:一文比較 Kimi 和 deepseek 的兩篇稀疏注意力機制論文
        文章來源:JioNLP
        內容字數:6009字

        Kimi與Deepseek:稀疏注意力機制的巔峰對決

        近日,Kimi和Deepseek分別發布了關于稀疏注意力機制的論文,兩篇論文在發布時間和主題上高度相似,堪稱“神仙打架”。本文將對兩篇論文的核心內容進行解讀和比較,并分享個人感受。

        1. 問題背景:Transformer的計算瓶頸

        Transformer模型雖然強大,但其計算量巨大,尤其是在處理長上下文時,模型長度動輒達到8k、32k甚至128k,對GPU造成極大壓力。問題的核心在于Transformer的核心注意力機制需要針對每一個q,遍歷所有k和v進行計算,計算復雜度極高。

        2. Kimi的MoBA:混合塊注意力機制

        Kimi的論文《MoBA: MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS》提出了一種名為MoBA的混合塊注意力機制。MoBA將序列長度劃分為多個大小相同的塊,并選擇性地與q進行匹配計算。具體來說,MoBA首先計算q與其所在塊的相關性,然后計算q與其他塊的平均池化結果的相關性,選擇相關性高的塊進行計算。圖示清晰地展現了這一過程,其中綠色部分表示被選中的k和v位置。MoBA實際上是對多種稀疏注意力機制的泛化,旨在統一稀疏注意力領域的各種方法。

        3. Deepseek的NSA:原生稀疏注意力機制

        Deepseek的論文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》提出了原生稀疏注意力機制NSA。NSA同樣將序列分為多個塊,并采用了三種策略:塊選擇、壓縮塊注意力和滑動窗口注意力。壓縮塊注意力對多個塊進行MLP壓縮,生成粒度較粗的k和v;塊選擇策略與MoBA類似;滑動窗口注意力則與MoBA的滑動窗口方法類似,但可以跨塊。NSA將三種策略的結果拼接作為輸出。論文還詳細闡述了基于Triton的硬件加速。

        4. 兩篇論文的比較

        兩篇論文的核心思想高度相似,都是通過選擇性地計算部分k和v來實現稀疏注意力。MoBA采用單一的塊選擇方法,而NSA融合了三種策略。實驗結果顯示,兩者都比Flash Attention更快,但在模型效果上略有差異:MoBA在訓練初期損失值略高,但最終逼近Full Attention;NSA的損失值則略低于Full Attention。在“海底撈針”實驗中,兩者均達到100%的準確率。

        5. 實驗結果與分析

        Kimi的實驗長度達到了100萬,Deepseek則分別對前向和反向傳播進行了對比實驗。兩者都展現了稀疏注意力的優越性,但NSA融合多種策略,效果可能略優于MoBA。 需要注意的是,NSA論文中存在少量筆誤。

        6. 個人感受

        兩篇論文都體現了國內AI技術研究的快速進步,其簡潔清晰的寫作風格令人印象深刻。 然而,NSA論文中并未詳細分析三種策略各自的貢獻,以及不同策略之間的差異,這有待進一步研究。

        7. 未來的展望

        作者對稀疏注意力機制有更深入的思考,并暗示擁有更優的方法,將在后續文章中詳細闡述。


        聯系作者

        文章來源:JioNLP
        作者微信:
        作者簡介:用數學和程序解構世界。

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 最近最好最新2019中文字幕免费| 亚洲日本va中文字幕久久| 国内精品免费在线观看| 色偷偷噜噜噜亚洲男人| 亚洲视频一区二区在线观看| 亚洲片一区二区三区| 成人毛片免费观看视频| 曰批全过程免费视频网址| a国产成人免费视频| 免费看又黄又爽又猛的视频软件| 亚洲一区精彩视频| 精品日韩亚洲AV无码一区二区三区| 亚洲乱码国产一区网址| 国产男女性潮高清免费网站| 毛片免费在线播放| 手机看黄av免费网址| 99视频免费观看| 久久久久久久久久国产精品免费 | 91精品国产免费久久久久久青草| 中文字幕视频免费在线观看| 四虎国产精品成人免费久久 | 久草免费手机视频| 你是我的城池营垒免费观看完整版| 黄色一级毛片免费| 国产偷国产偷亚洲高清在线| 亚洲欧美日韩一区二区三区在线| 亚洲中文字幕人成乱码| 亚洲欧洲日产专区| 亚洲性色高清完整版在线观看| 久久久婷婷五月亚洲97号色| 久久久无码精品亚洲日韩蜜臀浪潮| 亚洲乱亚洲乱淫久久| 亚洲视频在线视频| 亚洲色av性色在线观无码| 亚洲美女aⅴ久久久91| 亚洲精品美女在线观看播放| 亚洲欧洲国产精品久久| 亚洲国产精品免费观看| 亚洲精品色播一区二区| 老司机午夜性生免费福利| 精品无码一级毛片免费视频观看 |