MoBA在千萬tokens量級實現16倍的加速。
原標題:DeepSeek發文,月之暗面跟進!推出MoBA架構,處理百萬token速度快6.5倍
文章來源:智東西
內容字數:9155字
月之暗面發布MoBA稀疏注意力框架,實現大模型16倍加速
本文總結了智東西報道的月之暗面團隊發布的MoBA稀疏注意力框架論文要點,以及同期發布的Kimi Latest模型。
1. 長文本處理是AGI的關鍵,現有方案不足
文章指出,處理長文本是實現通用人工智能(AGI)的關鍵能力。傳統的注意力機制計算復雜度高,現有稀疏注意力框架存在可擴展性、成本效益差等問題,難以高效處理百萬級上下文長度。
2. MoBA架構:高效的動態注意力選擇
月之暗面提出的MoBA(Memory-Based Attention)框架,通過動態選擇歷史片段(塊)來提高Transformer模型處理長序列的效率。它將長序列分割成多個固定大小的塊,并通過門控機制動態選擇與每個查詢token最相關的塊,從而實現稀疏注意力。MoBA的設計靈感來源于混合專家(MoE)和稀疏注意力技術,并結合FlashAttention優化計算流程,實現了與全注意力機制相當的效果,同時保持了因果性。
3. 性能與效率的提升
MoBA在處理長達100萬tokens的序列時,速度比全注意力快6.5倍;在1000萬tokens時,比標準Flash Attention快16倍。在多個基準測試中,MoBA的性能與全注意力模型相當,甚至在某些測試中表現更好,例如RULER基準測試中,MoBA稀疏度高達62.5%,性能卻與全注意力模型幾乎一致。
4. Kimi Latest模型發布
月之暗面還發布了新模型Kimi Latest,該模型與Kimi智能助手當前使用的模型同步升級,旨在提升開放平臺用戶體驗,并支持自動上下文緩存,緩存命中的Tokens費用僅為1元/百萬tokens。Kimi Latest模型支持圖片理解和多種功能,但建議根據實際應用場景選擇合適的模型。
5. 開源競賽與未來展望
文章最后提到,在DeepSeek等公司紛紛開源大模型的背景下,月之暗面雖然發布了多個成果,但關注度相對較低。這反映了當前大模型領域競爭的激烈程度。
聯系作者
文章來源:智東西
作者微信:
作者簡介:智能產業新媒體!智東西專注報道人工智能主導的前沿技術發展,和技術應用帶來的千行百業產業升級。聚焦智能變革,服務產業升級。