Kimi 和 Deepseek 的兩篇論文比較與解析
原標題:一文比較 Kimi 和 deepseek 的兩篇稀疏注意力機制論文
文章來源:JioNLP
內容字數:6009字
Kimi與Deepseek:稀疏注意力機制的巔峰對決
近日,Kimi和Deepseek分別發布了關于稀疏注意力機制的論文,兩篇論文在發布時間和主題上高度相似,堪稱“神仙打架”。本文將對兩篇論文的核心內容進行解讀和比較,并分享個人感受。
1. 問題背景:Transformer的計算瓶頸
Transformer模型雖然強大,但其計算量巨大,尤其是在處理長上下文時,模型長度動輒達到8k、32k甚至128k,對GPU造成極大壓力。問題的核心在于Transformer的核心注意力機制需要針對每一個q,遍歷所有k和v進行計算,計算復雜度極高。
2. Kimi的MoBA:混合塊注意力機制
Kimi的論文《MoBA: MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS》提出了一種名為MoBA的混合塊注意力機制。MoBA將序列長度劃分為多個大小相同的塊,并選擇性地與q進行匹配計算。具體來說,MoBA首先計算q與其所在塊的相關性,然后計算q與其他塊的平均池化結果的相關性,選擇相關性高的塊進行計算。圖示清晰地展現了這一過程,其中綠色部分表示被選中的k和v位置。MoBA實際上是對多種稀疏注意力機制的泛化,旨在統一稀疏注意力領域的各種方法。
3. Deepseek的NSA:原生稀疏注意力機制
Deepseek的論文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》提出了原生稀疏注意力機制NSA。NSA同樣將序列分為多個塊,并采用了三種策略:塊選擇、壓縮塊注意力和滑動窗口注意力。壓縮塊注意力對多個塊進行MLP壓縮,生成粒度較粗的k和v;塊選擇策略與MoBA類似;滑動窗口注意力則與MoBA的滑動窗口方法類似,但可以跨塊。NSA將三種策略的結果拼接作為輸出。論文還詳細闡述了基于Triton的硬件加速。
4. 兩篇論文的比較
兩篇論文的核心思想高度相似,都是通過選擇性地計算部分k和v來實現稀疏注意力。MoBA采用單一的塊選擇方法,而NSA融合了三種策略。實驗結果顯示,兩者都比Flash Attention更快,但在模型效果上略有差異:MoBA在訓練初期損失值略高,但最終逼近Full Attention;NSA的損失值則略低于Full Attention。在“海底撈針”實驗中,兩者均達到100%的準確率。
5. 實驗結果與分析
Kimi的實驗長度達到了100萬,Deepseek則分別對前向和反向傳播進行了對比實驗。兩者都展現了稀疏注意力的優越性,但NSA融合多種策略,效果可能略優于MoBA。 需要注意的是,NSA論文中存在少量筆誤。
6. 個人感受
兩篇論文都體現了國內AI技術研究的快速進步,其簡潔清晰的寫作風格令人印象深刻。 然而,NSA論文中并未詳細分析三種策略各自的貢獻,以及不同策略之間的差異,這有待進一步研究。
7. 未來的展望
作者對稀疏注意力機制有更深入的思考,并暗示擁有更優的方法,將在后續文章中詳細闡述。
聯系作者
文章來源:JioNLP
作者微信:
作者簡介:用數學和程序解構世界。