原標題:“梁文鋒、楊植麟同一天文,關注大模型的未來趨勢“
文章來源:人工智能學家
內容字數:14427字
兩家AI公司聚焦長文本處理:DeepSeek和月之暗面最新研究成果對比
近日,DeepSeek和月之暗面(Moonshot AI)幾乎同時發布了各自最新的研究成果,都集中于改進Transformer架構中的注意力機制,以提升其處理長文本的能力并降低計算成本。這體現了業界對高效處理長文本的迫切需求,也反映了技術創新競爭的激烈程度。兩家公司的明星創始人均親自參與了研究,引發了廣泛關注。
1. Transformer架構的瓶頸:長文本處理的挑戰
Transformer架構雖然是AI發展史上的里程碑,但其注意力機制的計算復雜度與輸入序列長度的平方成正比(O(n2))。這意味著處理長文本(例如超過1萬個token)的計算成本和內存占用會急劇增加,成為模型進一步擴展和提升能力的主要障礙。
2. DeepSeek的NSA:原生可訓練的稀疏注意力機制
DeepSeek的論文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》提出了原生可訓練的稀疏注意力機制NSA (Natively Trainable Sparse Attention)。NSA通過動態分層稀疏策略,結合粗粒度token壓縮和細粒度token選擇,實現了對長上下文的高效建模。其核心在于減少不必要的計算,在保持性能的同時提升速度。NSA具有兩大創新:
- 算法優化:NSA設計了一種平衡計算強度的算法,并針對現代硬件進行了優化,類似于高效閱讀,只關注重要部分。
- 端到端訓練:NSA允許模型從頭到尾進行訓練,無需額外計算步驟,減少訓練時間并提升模型表現。
實驗表明,NSA在多個任務上表現出色,在處理64k長度序列時,解碼、前向傳播和后向傳播分別實現了2.5倍、3.1倍和2.8倍的加速,同時保持了與全注意力模型相當甚至更好的性能。
3. 月之暗面的MoBA:混合塊注意力架構
月之暗面的論文《MoBA: Mixture of Block Attention for Long-Context LLMs》提出了混合塊注意力架構MoBA (Mixture of Block Attention)。MoBA同樣旨在解決長文本處理的計算瓶頸,其核心思想是讓模型自己決定關注哪些部分,而不是人為規定。MoBA借鑒了“專家混合(MoE)”的思想,靈活地在全注意力和稀疏注意力之間切換,在保持性能的同時顯著降低了計算量。
MoBA已經被應用于月之暗面的AI助手Kimi中,幫助其更好地處理長文本請求,例如總結長篇小說。
4. 兩家公司在模型架構上的“撞車”與思維鏈的探索
這并非DeepSeek和月之暗面第一次在核心思想上“撞車”。此前,DeepSeek發布R1時,Kimi也公開了K1.5的技術報告,兩者的目標都是通過強化學習提升AI的推理能力,尤其是在思維鏈學習(COT)方面的應用。OpenAI在其論文中也提到了DeepSeek-R1和Kimi K1.5,認可了它們在推理能力方面的成就,并強調了COT方法的重要性。
DeepSeek和月之暗面在長文本處理和推理能力提升上的持續探索,預示著AI模型創新正朝著更有效率、更強大的方向發展。
聯系作者
文章來源:人工智能學家
作者微信:
作者簡介:致力成為權威的人工智能科技媒體和前沿科技研究機構