一文比較 Kimi 和 deepseek 的兩篇稀疏注意力機制論文

Kimi 和 Deepseek 的兩篇論文比較與解析

原標題：一文比較 Kimi 和 deepseek 的兩篇稀疏注意力機制論文
文章來源：JioNLP
內容字數：6009字

Kimi與Deepseek：稀疏注意力機制的巔峰對決

近日，Kimi和Deepseek分別發布了關于稀疏注意力機制的論文，兩篇論文在發布時間和主題上高度相似，堪稱“神仙打架”。本文將對兩篇論文的核心內容進行解讀和比較，并分享個人感受。

1. 問題背景：Transformer的計算瓶頸

Transformer模型雖然強大，但其計算量巨大，尤其是在處理長上下文時，模型長度動輒達到8k、32k甚至128k，對GPU造成極大壓力。問題的核心在于Transformer的核心注意力機制需要針對每一個q，遍歷所有k和v進行計算，計算復雜度極高。

2. Kimi的MoBA：混合塊注意力機制

Kimi的論文《MoBA: MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS》提出了一種名為MoBA的混合塊注意力機制。MoBA將序列長度劃分為多個大小相同的塊，并選擇性地與q進行匹配計算。具體來說，MoBA首先計算q與其所在塊的相關性，然后計算q與其他塊的平均池化結果的相關性，選擇相關性高的塊進行計算。圖示清晰地展現了這一過程，其中綠色部分表示被選中的k和v位置。MoBA實際上是對多種稀疏注意力機制的泛化，旨在統一稀疏注意力領域的各種方法。

3. Deepseek的NSA：原生稀疏注意力機制

Deepseek的論文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》提出了原生稀疏注意力機制NSA。NSA同樣將序列分為多個塊，并采用了三種策略：塊選擇、壓縮塊注意力和滑動窗口注意力。壓縮塊注意力對多個塊進行MLP壓縮，生成粒度較粗的k和v；塊選擇策略與MoBA類似；滑動窗口注意力則與MoBA的滑動窗口方法類似，但可以跨塊。NSA將三種策略的結果拼接作為輸出。論文還詳細闡述了基于Triton的硬件加速。

4. 兩篇論文的比較

兩篇論文的核心思想高度相似，都是通過選擇性地計算部分k和v來實現稀疏注意力。MoBA采用單一的塊選擇方法，而NSA融合了三種策略。實驗結果顯示，兩者都比Flash Attention更快，但在模型效果上略有差異：MoBA在訓練初期損失值略高，但最終逼近Full Attention；NSA的損失值則略低于Full Attention。在“海底撈針”實驗中，兩者均達到100%的準確率。

5. 實驗結果與分析

Kimi的實驗長度達到了100萬，Deepseek則分別對前向和反向傳播進行了對比實驗。兩者都展現了稀疏注意力的優越性，但NSA融合多種策略，效果可能略優于MoBA。需要注意的是，NSA論文中存在少量筆誤。

6. 個人感受

兩篇論文都體現了國內AI技術研究的快速進步，其簡潔清晰的寫作風格令人印象深刻。然而，NSA論文中并未詳細分析三種策略各自的貢獻，以及不同策略之間的差異，這有待進一步研究。

7. 未來的展望

作者對稀疏注意力機制有更深入的思考，并暗示擁有更優的方法，將在后續文章中詳細闡述。

聯系作者

文章來源：JioNLP
作者微信：
作者簡介：用數學和程序解構世界。

閱讀原文

# AIGC動態 # DeepSeek模型 # Kimi模型 # 稀疏注意力機制 # 長序列建模 # 高效Transformer

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

一文比較 Kimi 和 deepseek 的兩篇稀疏注意力機制論文

Kimi 和 Deepseek 的兩篇論文比較與解析

Kimi與Deepseek：稀疏注意力機制的巔峰對決

1. 問題背景：Transformer的計算瓶頸

2. Kimi的MoBA：混合塊注意力機制

3. Deepseek的NSA：原生稀疏注意力機制

4. 兩篇論文的比較

5. 實驗結果與分析

6. 個人感受

7. 未來的展望

聯系作者

上海GDC大會如何打造“社區的社區”？｜甲子光年

爆：OpenAI 下周發布 GPT-4.5，5 月發布GPT-5！

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點