“梁文鋒、楊植麟同一天文，關注大模型的未來趨勢“

“梁文鋒、楊植麟同一天發論文，關注大模型的未來趨勢“

原標題：“梁文鋒、楊植麟同一天文，關注大模型的未來趨勢“
文章來源：人工智能學家
內容字數：14427字

兩家AI公司聚焦長文本處理：DeepSeek和月之暗面最新研究成果對比

近日，DeepSeek和月之暗面(Moonshot AI)幾乎同時發布了各自最新的研究成果，都集中于改進Transformer架構中的注意力機制，以提升其處理長文本的能力并降低計算成本。這體現了業界對高效處理長文本的迫切需求，也反映了技術創新競爭的激烈程度。兩家公司的明星創始人均親自參與了研究，引發了廣泛關注。

1. Transformer架構的瓶頸：長文本處理的挑戰

Transformer架構雖然是AI發展史上的里程碑，但其注意力機制的計算復雜度與輸入序列長度的平方成正比(O(n2))。這意味著處理長文本(例如超過1萬個token)的計算成本和內存占用會急劇增加，成為模型進一步擴展和提升能力的主要障礙。

2. DeepSeek的NSA：原生可訓練的稀疏注意力機制

DeepSeek的論文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》提出了原生可訓練的稀疏注意力機制NSA (Natively Trainable Sparse Attention)。NSA通過動態分層稀疏策略，結合粗粒度token壓縮和細粒度token選擇，實現了對長上下文的高效建模。其核心在于減少不必要的計算，在保持性能的同時提升速度。NSA具有兩大創新：

算法優化：NSA設計了一種平衡計算強度的算法，并針對現代硬件進行了優化，類似于高效閱讀，只關注重要部分。
端到端訓練：NSA允許模型從頭到尾進行訓練，無需額外計算步驟，減少訓練時間并提升模型表現。

實驗表明，NSA在多個任務上表現出色，在處理64k長度序列時，解碼、前向傳播和后向傳播分別實現了2.5倍、3.1倍和2.8倍的加速，同時保持了與全注意力模型相當甚至更好的性能。

3. 月之暗面的MoBA：混合塊注意力架構

月之暗面的論文《MoBA: Mixture of Block Attention for Long-Context LLMs》提出了混合塊注意力架構MoBA (Mixture of Block Attention)。MoBA同樣旨在解決長文本處理的計算瓶頸，其核心思想是讓模型自己決定關注哪些部分，而不是人為規定。MoBA借鑒了“專家混合(MoE)”的思想，靈活地在全注意力和稀疏注意力之間切換，在保持性能的同時顯著降低了計算量。

MoBA已經被應用于月之暗面的AI助手Kimi中，幫助其更好地處理長文本請求，例如總結長篇小說。

4. 兩家公司在模型架構上的“撞車”與思維鏈的探索

這并非DeepSeek和月之暗面第一次在核心思想上“撞車”。此前，DeepSeek發布R1時，Kimi也公開了K1.5的技術報告，兩者的目標都是通過強化學習提升AI的推理能力，尤其是在思維鏈學習(COT)方面的應用。OpenAI在其論文中也提到了DeepSeek-R1和Kimi K1.5，認可了它們在推理能力方面的成就，并強調了COT方法的重要性。

DeepSeek和月之暗面在長文本處理和推理能力提升上的持續探索，預示著AI模型創新正朝著更有效率、更強大的方向發展。

聯系作者

文章來源：人工智能學家
作者微信：
作者簡介：致力成為權威的人工智能科技媒體和前沿科技研究機構

閱讀原文

# AIGC動態 # 人工智能發展趨勢 # 大模型未來趨勢 # 大語言模型研究 # 楊植麟論文 # 梁文鋒論文

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

“梁文鋒、楊植麟同一天文，關注大模型的未來趨勢“

兩家AI公司聚焦長文本處理：DeepSeek和月之暗面最新研究成果對比

1. Transformer架構的瓶頸：長文本處理的挑戰

2. DeepSeek的NSA：原生可訓練的稀疏注意力機制

3. 月之暗面的MoBA：混合塊注意力架構

4. 兩家公司在模型架構上的“撞車”與思維鏈的探索

聯系作者

DeepSeek大解讀系列公開課上新！阿里云專家主講云上智能算力、Kubernetes容器服務、DeepSeek私有化部署

制造業百年劇變！AI工廠覺醒，全行業AI化正照進現實

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

“梁文鋒、楊植麟同一天文，關注大模型的未來趨勢“

兩家AI公司聚焦長文本處理：DeepSeek和月之暗面最新研究成果對比

1. Transformer架構的瓶頸：長文本處理的挑戰

2. DeepSeek的NSA：原生可訓練的稀疏注意力機制

3. 月之暗面的MoBA：混合塊注意力架構

4. 兩家公司在模型架構上的“撞車”與思維鏈的探索

聯系作者

DeepSeek大解讀系列公開課上新！阿里云專家主講云上智能算力、Kubernetes容器服務、DeepSeek私有化部署

制造業百年劇變！AI工廠覺醒，全行業AI化正照進現實

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

DeepSeek大解讀系列公開課上新！阿里云專家主講云上智能算力、Kubernetes容器服務、DeepSeek私有化部署

制造業百年劇變！AI工廠覺醒，全行業AI化正照進現實