楊植麟跟梁文鋒，論文撞車！

MoBA在千萬tokens量級實現(xiàn)16倍的加速。

楊植麟跟梁文鋒，論文撞車！

原標題：楊植麟跟梁文鋒，論文撞車！
文章來源：智東西
內(nèi)容字數(shù)：9171字

國產(chǎn)大模型開源競賽：月之暗面MoBA框架挑戰(zhàn)長文本處理瓶頸

本文總結(jié)了月之暗面團隊最新發(fā)布的MoBA稀疏注意力框架論文，以及同期發(fā)布的新模型Kimi Latest 的主要內(nèi)容。文章重點關注MoBA框架在長文本處理方面的效率提升和性能表現(xiàn)，以及與DeepSeek的NSA框架的對比。

1. 長文本處理的挑戰(zhàn)與MoBA的解決方案

文章指出，處理長文本是實現(xiàn)通用人工智能(AGI)的關鍵，但傳統(tǒng)注意力機制的計算復雜度呈二次方增長，限制了大模型處理長序列的能力。現(xiàn)有稀疏注意力框架存在可擴展性、成本效益和泛化能力等問題。月之暗面提出的MoBA框架旨在解決這些問題，它通過動態(tài)選擇歷史片段（塊）來提高Transformer模型處理長序列的效率，在保留原始Transformer框架的前提下，實現(xiàn)高效的推理和訓練加速，并能在全注意力和稀疏注意力模式之間無縫切換。

2. MoBA框架的核心設計

MoBA框架的核心創(chuàng)新在于其塊劃分和選擇策略。它將長序列分割成多個固定大小的塊，并通過門控機制動態(tài)選擇與每個查詢token最相關的塊，從而實現(xiàn)稀疏注意力。MoBA借鑒了MoE中細粒度劃分的思想，并結(jié)合FlashAttention優(yōu)化計算流程，實現(xiàn)了高效的計算。其主要步驟包括塊分配、順序調(diào)整、塊級注意力計算、輸出重組和在線Softmax組合。

3. MoBA框架的性能表現(xiàn)

實驗結(jié)果表明，MoBA框架在處理百萬級token時，速度比全注意力快6.5倍，在千萬級token時，速度比標準Flash Attention快16倍。在多個長上下文基準測試中，MoBA的性能與全注意力模型相當，甚至在部分測試中表現(xiàn)更好。MoBA與全注意力模型的驗證損失曲線非常相似，表明其擴展性能與全注意力相當。混合訓練策略也進一步提升了MoBA的性能。

4. Kimi Latest模型發(fā)布

月之暗面同時發(fā)布了新模型Kimi Latest，該模型對標Kimi智能助手當前使用的模型，并隨產(chǎn)品更新同步升級。它支持自動上下文緩存，緩存命中的Tokens費用僅為1元/百萬tokens，并支持圖片理解等功能。Kimi Latest旨在彌合Kimi智能助手和開放平臺之間模型的差異，為開發(fā)者提供更穩(wěn)定和一致的模型體驗。