DeepSeek 性 NSA 注意力機制問世。
原標題:梁文鋒親自掛名,DeepSeek 最新論文丟出注意力新機制,推理速度直線提升 11 倍
文章來源:AI科技評論
內容字數:5637字
DeepSeek性注意力機制NSA:高效長上下文訓練與推理
近日,DeepSeek團隊發布了關于新型注意力機制NSA(Native Sparse Attention)的研究論文,引起廣泛關注。該機制旨在解決傳統注意力機制在長上下文訓練和推理中的效率問題,并在多個方面展現出顯著優勢。
NSA的核心技術及優勢
NSA的核心在于動態分層稀疏策略、粗粒度token壓縮和細粒度token選擇。這三點協同工作,有效降低了預訓練成本,并顯著提升了推理速度,尤其在解碼階段實現了高達11.6倍的提升。NSA還具有硬件友好型特性,通過Triton實現了與硬件的高度兼容。
NSA的性能評估
DeepSeek團隊從通用基準性能、長文本基準性能和思維鏈推理性能三個方面對NSA進行了評估,并將其與全注意力基線和SOTA稀疏注意力方法進行比較。結果顯示,NSA在多個基準測試中均優于其他方法,尤其在長上下文任務中表現突出,例如在64k上下文的“大海撈針”測試中展現了極高的檢索精度。在LongBench基準測試中,NSA獲得了最高平均分0.469。
NSA在復雜數學問題上的應用
論文中展示了NSA在處理復雜數學問題上的優勢。通過優化問題理解和答案生成,NSA將所需的tokens數量減少至2275,成功得出正確答案,而基線方法則需要9392個tokens并最終得出錯誤答案。這驗證了此前清華大學姚班論文中關于Transformer架構在處理復雜數學問題時存在瓶頸的結論。
DeepSeek未來的研究方向
DeepSeek未來的研究可能將更加專注于優化模型在長文本和代碼庫分析中的表現,進一步提升其推理能力和實用性,以應對現實世界中對深度推理、代碼庫級代碼生成和多輪自主代理系統等應用場景日益增長的需求。
總而言之,DeepSeek提出的NSA注意力機制為高效的長上下文訓練和推理提供了一種新的解決方案,其在速度、效率和性能上的提升都非常顯著,為大模型的發展帶來了新的突破。
聯系作者
文章來源:AI科技評論
作者微信:
作者簡介:雷峰網旗下AI新媒體。聚焦AI前沿研究,關注AI工程落地。