梁文鋒親自掛名，DeepSeek 最新論文丟出注意力新機(jī)制，推理速度直線提升 11 倍

AIGC動(dòng)態(tài)3個(gè)月前發(fā)布 AI科技評(píng)論

DeepSeek 性 NSA 注意力機(jī)制問世。

原標(biāo)題：梁文鋒親自掛名，DeepSeek 最新論文丟出注意力新機(jī)制，推理速度直線提升 11 倍
文章來源：AI科技評(píng)論
內(nèi)容字?jǐn)?shù)：5637字

DeepSeek性注意力機(jī)制NSA：高效長(zhǎng)上下文訓(xùn)練與推理

近日，DeepSeek團(tuán)隊(duì)發(fā)布了關(guān)于新型注意力機(jī)制NSA（Native Sparse Attention）的研究論文，引起廣泛關(guān)注。該機(jī)制旨在解決傳統(tǒng)注意力機(jī)制在長(zhǎng)上下文訓(xùn)練和推理中的效率問題，并在多個(gè)方面展現(xiàn)出顯著優(yōu)勢(shì)。

NSA的核心技術(shù)及優(yōu)勢(shì)
NSA的核心在于動(dòng)態(tài)分層稀疏策略、粗粒度token壓縮和細(xì)粒度token選擇。這三點(diǎn)協(xié)同工作，有效降低了預(yù)訓(xùn)練成本，并顯著提升了推理速度，尤其在解碼階段實(shí)現(xiàn)了高達(dá)11.6倍的提升。NSA還具有硬件友好型特性，通過Triton實(shí)現(xiàn)了與硬件的高度兼容。
NSA的性能評(píng)估
DeepSeek團(tuán)隊(duì)從通用基準(zhǔn)性能、長(zhǎng)文本基準(zhǔn)性能和思維鏈推理性能三個(gè)方面對(duì)NSA進(jìn)行了評(píng)估，并將其與全注意力基線和SOTA稀疏注意力方法進(jìn)行比較。結(jié)果顯示，NSA在多個(gè)基準(zhǔn)測(cè)試中均優(yōu)于其他方法，尤其在長(zhǎng)上下文任務(wù)中表現(xiàn)突出，例如在64k上下文的“大海撈針”測(cè)試中展現(xiàn)了極高的檢索精度。在LongBench基準(zhǔn)測(cè)試中，NSA獲得了最高平均分0.469。
NSA在復(fù)雜數(shù)學(xué)問題上的應(yīng)用
論文中展示了NSA在處理復(fù)雜數(shù)學(xué)問題上的優(yōu)勢(shì)。通過優(yōu)化問題理解和答案生成，NSA將所需的tokens數(shù)量減少至2275，成功得出正確答案，而基線方法則需要9392個(gè)tokens并最終得出錯(cuò)誤答案。這驗(yàn)證了此前清華大學(xué)姚班論文中關(guān)于Transformer架構(gòu)在處理復(fù)雜數(shù)學(xué)問題時(shí)存在瓶頸的結(jié)論。
DeepSeek未來的研究方向
DeepSeek未來的研究可能將更加專注于優(yōu)化模型在長(zhǎng)文本和代碼庫分析中的表現(xiàn)，進(jìn)一步提升其推理能力和實(shí)用性，以應(yīng)對(duì)現(xiàn)實(shí)世界中對(duì)深度推理、代碼庫級(jí)代碼生成和多輪自主代理系統(tǒng)等應(yīng)用場(chǎng)景日益增長(zhǎng)的需求。

總而言之，DeepSeek提出的NSA注意力機(jī)制為高效的長(zhǎng)上下文訓(xùn)練和推理提供了一種新的解決方案，其在速度、效率和性能上的提升都非常顯著，為大模型的發(fā)展帶來了新的突破。

聯(lián)系作者

文章來源：AI科技評(píng)論
作者微信：
作者簡(jiǎn)介：雷峰網(wǎng)旗下AI新媒體。聚焦AI前沿研究，關(guān)注AI工程落地。

閱讀原文

# AIGC動(dòng)態(tài)# DeepSeek # 推理速度提升 # 梁文鋒 # 注意力機(jī)制 # 神經(jīng)網(wǎng)絡(luò)效率

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。

暫無評(píng)論

暫無評(píng)論...

梁文鋒親自掛名，DeepSeek 最新論文丟出注意力新機(jī)制，推理速度直線提升 11 倍

DeepSeek 性 NSA 注意力機(jī)制問世。

DeepSeek性注意力機(jī)制NSA：高效長(zhǎng)上下文訓(xùn)練與推理

NSA的核心技術(shù)及優(yōu)勢(shì)

NSA的性能評(píng)估

NSA在復(fù)雜數(shù)學(xué)問題上的應(yīng)用

DeepSeek未來的研究方向

聯(lián)系作者

風(fēng)投式思維：哪吒2和DeepSeek背后的共同思維模式

張俊林：Grok 3是否意味著預(yù)訓(xùn)練Scaling Law仍然成立？

相關(guān)文章

暫無評(píng)論

ChatGPT

畢業(yè)論文生成器

AIGC熱點(diǎn)