<code id="hthwv"></code>

DeepSeek是否有國(guó)運(yùn)級(jí)的創(chuàng)新？2萬字解讀與硬核分析DeepSeek V3/R1的架構(gòu)

AIGC動(dòng)態(tài)3個(gè)月前發(fā)布智猩猩GenAI

530 0 0

本文由淺入深分析和解讀DeepSeek V3/R1的模型架構(gòu)，適合投資人和行業(yè)人士了解新技術(shù)趨勢(shì)

原標(biāo)題：DeepSeek是否有國(guó)運(yùn)級(jí)的創(chuàng)新？2萬字解讀與硬核分析DeepSeek V3/R1的架構(gòu)
文章來源：智猩猩GenAI
內(nèi)容字?jǐn)?shù)：37411字

DeepSeek V3/R1架構(gòu)深度分析與創(chuàng)新解讀

本文深入分析了中存算董事長(zhǎng)陳巍博士在“DeepSeek大解讀”系列公開課中講解的DeepSeek V3/R1模型架構(gòu)，并對(duì)圍繞DeepSeek的各種說法進(jìn)行了技術(shù)層面的解讀，澄清了部分誤傳。

1. V3/R1的主要特征

DeepSeek-V3和DeepSeek-R1均為6710億參數(shù)的MoE（混合專家）模型。R1可視為具有推理能力的V3。兩者關(guān)鍵特征包括：

MoE架構(gòu)：采用細(xì)粒度專家+通才專家的思路，并結(jié)合無輔助損失的負(fù)載平衡策略，克服了傳統(tǒng)MoE模型訓(xùn)練難題，顯著提升訓(xùn)練效率。
MLA（多頭潛注意力）：通過低秩鍵值聯(lián)合壓縮，顯著減小KV緩存，提高計(jì)算效率。這是一種基于量化金融基因的創(chuàng)新，但并非顛覆性創(chuàng)新，未來仍有改進(jìn)空間。
DeepSeekMoE：改進(jìn)的MoE架構(gòu)，通過細(xì)粒度專家和共享專家，提升模型性能和效率。
R1-Zero：僅使用強(qiáng)化學(xué)習(xí)訓(xùn)練，無需SFT，具備強(qiáng)大的推理能力，在推理方面甚至略超R1，但存在可讀性和語言一致性問題。
R1：采用多階段訓(xùn)練方法，結(jié)合SFT和強(qiáng)化學(xué)習(xí)，在保證推理能力的同時(shí)，提升了語言可讀性和連貫性。

2. V3/R1架構(gòu)提升

V3/R1的架構(gòu)提升主要體現(xiàn)在MLA和MoE架構(gòu)的改進(jìn)上：

MLA：通過低秩近似對(duì)KV矩陣進(jìn)行壓縮，有效降低KV緩存大小，提升計(jì)算效率，并結(jié)合改進(jìn)的RoPE實(shí)現(xiàn)長(zhǎng)上下文能力。
MoE架構(gòu)與無輔助損耗負(fù)載均衡：采用共享專家和路由專家，并通過無輔助損失的負(fù)載平衡策略，避免了傳統(tǒng)MoE模型的“路由崩潰”問題，提高訓(xùn)練穩(wěn)定性。

MoE并非大模型的終局，其應(yīng)用場(chǎng)景與成本密切相關(guān)，在To C云計(jì)算場(chǎng)景中優(yōu)勢(shì)明顯。

3. V3/R1訓(xùn)練架構(gòu)的獨(dú)特優(yōu)勢(shì)

DeepSeek的優(yōu)勢(shì)不僅在于模型架構(gòu)，還在于其自研的HAI-LLM訓(xùn)練框架，該框架實(shí)現(xiàn)了軟硬件協(xié)同優(yōu)化：

FP8混合精度訓(xùn)練框架：首次在超大規(guī)模模型訓(xùn)練中驗(yàn)證了FP8的有效性，提升訓(xùn)練速度并降低顯存使用。
DualPipe算法：高效的流水線并行算法，減少流水線氣泡，提高信道使用效率，并通過計(jì)算-通信重疊隱藏通信開銷。
高效的跨節(jié)點(diǎn)All-to-All通信內(nèi)核：充分利用InfiniBand和NVLink帶寬，并優(yōu)化顯存使用，無需使用昂貴的張量并行。

DeepSeek的訓(xùn)練框架并非完全擺脫CUDA生態(tài)，而是利用PTX指令進(jìn)行優(yōu)化，提升效率。關(guān)于DeepSeek對(duì)英偉達(dá)的影響，應(yīng)理性看待，其對(duì)英偉達(dá)的沖擊并非決定性因素。

4. V3/R1的訓(xùn)練流程

V3的訓(xùn)練包含預(yù)訓(xùn)練、上下文長(zhǎng)度擴(kuò)展和后訓(xùn)練三個(gè)階段，后訓(xùn)練包括SFT和強(qiáng)化學(xué)習(xí)。R1則在V3基礎(chǔ)上，采用多階段訓(xùn)練，包括冷啟動(dòng)SFT、面向推理的強(qiáng)化學(xué)習(xí)、拒絕采樣SFT和面向全場(chǎng)景的強(qiáng)化學(xué)習(xí)與對(duì)齊。

R1-Zero采用無SFT的純強(qiáng)化學(xué)習(xí)訓(xùn)練，展現(xiàn)出強(qiáng)大的推理能力，但需要解決可讀性和語言一致性問題。R1則在R1-Zero基礎(chǔ)上，通過SFT和強(qiáng)化學(xué)習(xí)，提升了模型的可讀性和魯棒性。

5. 模型蒸餾

DeepSeek通過模型蒸餾技術(shù)，將R1的推理能力遷移到更小的Dense模型，擴(kuò)展其應(yīng)用場(chǎng)景。

6. 結(jié)語

DeepSeek在算法架構(gòu)和AI Infra方面都展現(xiàn)出領(lǐng)先優(yōu)勢(shì)，其成果值得肯定。但應(yīng)理性看待其影響力，避免過度宣傳。DeepSeek的成功也為國(guó)產(chǎn)AI芯片發(fā)展提供了啟示，國(guó)產(chǎn)AI芯片應(yīng)抓住機(jī)遇，發(fā)展新架構(gòu)和技術(shù)，提升算力效率。

聯(lián)系作者

文章來源：智猩猩GenAI
作者微信：
作者簡(jiǎn)介：智猩猩旗下賬號(hào)，專注于生成式人工智能，主要分享技術(shù)文章、論文成果與產(chǎn)品信息。

閱讀原文

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。

暫無評(píng)論

暫無評(píng)論...

打開我，進(jìn)入AI時(shí)代。
全面、高效的AI工具產(chǎn)品情報(bào)，發(fā)現(xiàn)和使用最酷的AI工具！
Ctrl + D 或 ? + D 收藏本站到瀏覽器書簽欄。

OpenI AI助手在線工具硅基流動(dòng)豆包 Trae 扣子Coze 即夢(mèng)繪蛙

粵公網(wǎng)安備 44011502001135號(hào) SiteMap XML

DeepSeek是否有國(guó)運(yùn)級(jí)的創(chuàng)新？2萬字解讀與硬核分析DeepSeek V3/R1的架構(gòu)

本文由淺入深分析和解讀DeepSeek V3/R1的模型架構(gòu)，適合投資人和行業(yè)人士了解新技術(shù)趨勢(shì)

DeepSeek V3/R1架構(gòu)深度分析與創(chuàng)新解讀

1. V3/R1的主要特征

2. V3/R1架構(gòu)提升

3. V3/R1訓(xùn)練架構(gòu)的獨(dú)特優(yōu)勢(shì)

4. V3/R1的訓(xùn)練流程

5. 模型蒸餾

6. 結(jié)語

聯(lián)系作者

Meta 即將開啟全公司大裁員，不會(huì)透露更具體細(xì)節(jié)

Science：如何“學(xué)會(huì)”不再害怕？視覺皮層的奇妙作用

相關(guān)文章

暫無評(píng)論

ChatGPT

畢業(yè)論文生成器

AIGC熱點(diǎn)

DeepSeek是否有國(guó)運(yùn)級(jí)的創(chuàng)新？2萬字解讀與硬核分析DeepSeek V3/R1的架構(gòu)

本文由淺入深分析和解讀DeepSeek V3/R1的模型架構(gòu)，適合投資人和行業(yè)人士了解新技術(shù)趨勢(shì)

DeepSeek V3/R1架構(gòu)深度分析與創(chuàng)新解讀

1. V3/R1的主要特征

2. V3/R1架構(gòu)提升

3. V3/R1訓(xùn)練架構(gòu)的獨(dú)特優(yōu)勢(shì)

4. V3/R1的訓(xùn)練流程

5. 模型蒸餾

6. 結(jié)語

聯(lián)系作者

Meta 即將開啟全公司大裁員，不會(huì)透露更具體細(xì)節(jié)

Science： 如何“學(xué)會(huì)”不再害怕？視覺皮層的奇妙作用

相關(guān)文章

暫無評(píng)論

ChatGPT

畢業(yè)論文生成器

AIGC熱點(diǎn)

Science：如何“學(xué)會(huì)”不再害怕？視覺皮層的奇妙作用