MoBA在千萬tokens量級實現16倍的加速。
原標題:楊植麟跟梁文鋒,論文撞車!
文章來源:智東西
內容字數:9171字
國產大模型開源競賽:月之暗面MoBA框架挑戰長文本處理瓶頸
本文總結了月之暗面團隊最新發布的MoBA稀疏注意力框架論文,以及同期發布的新模型Kimi Latest 的主要內容。 文章重點關注MoBA框架在長文本處理方面的效率提升和性能表現,以及與DeepSeek的NSA框架的對比。
1. 長文本處理的挑戰與MoBA的解決方案
文章指出,處理長文本是實現通用人工智能(AGI)的關鍵,但傳統注意力機制的計算復雜度呈二次方增長,限制了大模型處理長序列的能力?,F有稀疏注意力框架存在可擴展性、成本效益和泛化能力等問題。月之暗面提出的MoBA框架旨在解決這些問題,它通過動態選擇歷史片段(塊)來提高Transformer模型處理長序列的效率,在保留原始Transformer框架的前提下,實現高效的推理和訓練加速,并能在全注意力和稀疏注意力模式之間無縫切換。
2. MoBA框架的核心設計
MoBA框架的核心創新在于其塊劃分和選擇策略。它將長序列分割成多個固定大小的塊,并通過門控機制動態選擇與每個查詢token最相關的塊,從而實現稀疏注意力。MoBA借鑒了MoE中細粒度劃分的思想,并結合FlashAttention優化計算流程,實現了高效的計算。其主要步驟包括塊分配、順序調整、塊級注意力計算、輸出重組和在線Softmax組合。
3. MoBA框架的性能表現
實驗結果表明,MoBA框架在處理百萬級token時,速度比全注意力快6.5倍,在千萬級token時,速度比標準Flash Attention快16倍。在多個長上下文基準測試中,MoBA的性能與全注意力模型相當,甚至在部分測試中表現更好。MoBA與全注意力模型的驗證損失曲線非常相似,表明其擴展性能與全注意力相當?;旌嫌柧毑呗砸策M一步提升了MoBA的性能。
4. Kimi Latest模型發布
月之暗面同時發布了新模型Kimi Latest,該模型對標Kimi智能助手當前使用的模型,并隨產品更新同步升級。它支持自動上下文緩存,緩存命中的Tokens費用僅為1元/百萬tokens,并支持圖片理解等功能。Kimi Latest旨在彌合Kimi智能助手和開放平臺之間模型的差異,為開發者提供更穩定和一致的模型體驗。
5. 國產開源AI競賽的激烈競爭
文章最后指出,國內大模型賽道正掀起一場開源軍備競賽,月之暗面雖然發布了MoBA框架和Kimi Latest模型,但仍面臨來自DeepSeek等其他廠商的激烈競爭。
聯系作者
文章來源:智東西
作者微信:
作者簡介:智能產業新媒體!智東西專注報道人工智能主導的前沿技術發展,和技術應用帶來的千行百業產業升級。聚焦智能變革,服務產業升級。