梁文鋒親自掛名,DeepSeek 最新論文丟出注意力新機(jī)制,推理速度直線提升 11 倍
DeepSeek 性 NSA 注意力機(jī)制問世。
原標(biāo)題:梁文鋒親自掛名,DeepSeek 最新論文丟出注意力新機(jī)制,推理速度直線提升 11 倍
文章來源:AI科技評(píng)論
內(nèi)容字?jǐn)?shù):5637字
DeepSeek性注意力機(jī)制NSA:高效長(zhǎng)上下文訓(xùn)練與推理
近日,DeepSeek團(tuán)隊(duì)發(fā)布了關(guān)于新型注意力機(jī)制NSA(Native Sparse Attention)的研究論文,引起廣泛關(guān)注。該機(jī)制旨在解決傳統(tǒng)注意力機(jī)制在長(zhǎng)上下文訓(xùn)練和推理中的效率問題,并在多個(gè)方面展現(xiàn)出顯著優(yōu)勢(shì)。
NSA的核心技術(shù)及優(yōu)勢(shì)
NSA的核心在于動(dòng)態(tài)分層稀疏策略、粗粒度token壓縮和細(xì)粒度token選擇。這三點(diǎn)協(xié)同工作,有效降低了預(yù)訓(xùn)練成本,并顯著提升了推理速度,尤其在解碼階段實(shí)現(xiàn)了高達(dá)11.6倍的提升。NSA還具有硬件友好型特性,通過Triton實(shí)現(xiàn)了與硬件的高度兼容。
NSA的性能評(píng)估
DeepSeek團(tuán)隊(duì)從通用基準(zhǔn)性能、長(zhǎng)文本基準(zhǔn)性能和思維鏈推理性能三個(gè)方面對(duì)NSA進(jìn)行了評(píng)估,并將其與全注意力基線和SOTA稀疏注意力方法進(jìn)行比較。結(jié)果顯示,NSA在多個(gè)基準(zhǔn)測(cè)試中均優(yōu)于其他方法,尤其在長(zhǎng)上下文任務(wù)中表現(xiàn)突出,例如在64k上下文的“大海撈針”測(cè)試中展現(xiàn)了極高的檢索精度。在LongBench基準(zhǔn)測(cè)試中,NSA獲得了最高平均分0.469。
NSA在復(fù)雜數(shù)學(xué)問題上的應(yīng)用
論文中展示了NSA在處理復(fù)雜數(shù)學(xué)問題上的優(yōu)勢(shì)。通過優(yōu)化問題理解和答案生成,NSA將所需的tokens數(shù)量減少至2275,成功得出正確答案,而基線方法則需要9392個(gè)tokens并最終得出錯(cuò)誤答案。這驗(yàn)證了此前清華大學(xué)姚班論文中關(guān)于Transformer架構(gòu)在處理復(fù)雜數(shù)學(xué)問題時(shí)存在瓶頸的結(jié)論。
DeepSeek未來的研究方向
DeepSeek未來的研究可能將更加專注于優(yōu)化模型在長(zhǎng)文本和代碼庫分析中的表現(xiàn),進(jìn)一步提升其推理能力和實(shí)用性,以應(yīng)對(duì)現(xiàn)實(shí)世界中對(duì)深度推理、代碼庫級(jí)代碼生成和多輪自主代理系統(tǒng)等應(yīng)用場(chǎng)景日益增長(zhǎng)的需求。
總而言之,DeepSeek提出的NSA注意力機(jī)制為高效的長(zhǎng)上下文訓(xùn)練和推理提供了一種新的解決方案,其在速度、效率和性能上的提升都非常顯著,為大模型的發(fā)展帶來了新的突破。
聯(lián)系作者
文章來源:AI科技評(píng)論
作者微信:
作者簡(jiǎn)介:雷峰網(wǎng)旗下AI新媒體。聚焦AI前沿研究,關(guān)注AI工程落地。