<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        DeepSeek是否有國(guó)運(yùn)級(jí)的創(chuàng)新?2萬字解讀與硬核分析DeepSeek V3/R1的架構(gòu)

        AIGC動(dòng)態(tài)3個(gè)月前發(fā)布 智猩猩GenAI
        530 0 0

        本文由淺入深分析和解讀DeepSeek V3/R1的模型架構(gòu),適合投資人和行業(yè)人士了解新技術(shù)趨勢(shì)

        DeepSeek是否有國(guó)運(yùn)級(jí)的創(chuàng)新?2萬字解讀與硬核分析DeepSeek V3/R1的架構(gòu)

        原標(biāo)題:DeepSeek是否有國(guó)運(yùn)級(jí)的創(chuàng)新?2萬字解讀與硬核分析DeepSeek V3/R1的架構(gòu)
        文章來源:智猩猩GenAI
        內(nèi)容字?jǐn)?shù):37411字

        DeepSeek V3/R1架構(gòu)深度分析與創(chuàng)新解讀

        本文深入分析了中存算董事長(zhǎng)陳巍博士在“DeepSeek大解讀”系列公開課中講解的DeepSeek V3/R1模型架構(gòu),并對(duì)圍繞DeepSeek的各種說法進(jìn)行了技術(shù)層面的解讀,澄清了部分誤傳。

        1. V3/R1的主要特征

        DeepSeek-V3和DeepSeek-R1均為6710億參數(shù)的MoE(混合專家)模型。R1可視為具有推理能力的V3。兩者關(guān)鍵特征包括:

        1. MoE架構(gòu):采用細(xì)粒度專家+通才專家的思路,并結(jié)合無輔助損失的負(fù)載平衡策略,克服了傳統(tǒng)MoE模型訓(xùn)練難題,顯著提升訓(xùn)練效率。

        2. MLA(多頭潛注意力):通過低秩鍵值聯(lián)合壓縮,顯著減小KV緩存,提高計(jì)算效率。這是一種基于量化金融基因的創(chuàng)新,但并非顛覆性創(chuàng)新,未來仍有改進(jìn)空間。

        3. DeepSeekMoE:改進(jìn)的MoE架構(gòu),通過細(xì)粒度專家和共享專家,提升模型性能和效率。

        4. R1-Zero:僅使用強(qiáng)化學(xué)習(xí)訓(xùn)練,無需SFT,具備強(qiáng)大的推理能力,在推理方面甚至略超R1,但存在可讀性和語言一致性問題。

        5. R1:采用多階段訓(xùn)練方法,結(jié)合SFT和強(qiáng)化學(xué)習(xí),在保證推理能力的同時(shí),提升了語言可讀性和連貫性。

        2. V3/R1架構(gòu)提升

        V3/R1的架構(gòu)提升主要體現(xiàn)在MLA和MoE架構(gòu)的改進(jìn)上:

        1. MLA:通過低秩近似對(duì)KV矩陣進(jìn)行壓縮,有效降低KV緩存大小,提升計(jì)算效率,并結(jié)合改進(jìn)的RoPE實(shí)現(xiàn)長(zhǎng)上下文能力。

        2. MoE架構(gòu)與無輔助損耗負(fù)載均衡:采用共享專家和路由專家,并通過無輔助損失的負(fù)載平衡策略,避免了傳統(tǒng)MoE模型的“路由崩潰”問題,提高訓(xùn)練穩(wěn)定性。

        MoE并非大模型的終局,其應(yīng)用場(chǎng)景與成本密切相關(guān),在To C云計(jì)算場(chǎng)景中優(yōu)勢(shì)明顯。

        3. V3/R1訓(xùn)練架構(gòu)的獨(dú)特優(yōu)勢(shì)

        DeepSeek的優(yōu)勢(shì)不僅在于模型架構(gòu),還在于其自研的HAI-LLM訓(xùn)練框架,該框架實(shí)現(xiàn)了軟硬件協(xié)同優(yōu)化:

        1. FP8混合精度訓(xùn)練框架:首次在超大規(guī)模模型訓(xùn)練中驗(yàn)證了FP8的有效性,提升訓(xùn)練速度并降低顯存使用。

        2. DualPipe算法:高效的流水線并行算法,減少流水線氣泡,提高信道使用效率,并通過計(jì)算-通信重疊隱藏通信開銷。

        3. 高效的跨節(jié)點(diǎn)All-to-All通信內(nèi)核:充分利用InfiniBand和NVLink帶寬,并優(yōu)化顯存使用,無需使用昂貴的張量并行。

        DeepSeek的訓(xùn)練框架并非完全擺脫CUDA生態(tài),而是利用PTX指令進(jìn)行優(yōu)化,提升效率。關(guān)于DeepSeek對(duì)英偉達(dá)的影響,應(yīng)理性看待,其對(duì)英偉達(dá)的沖擊并非決定性因素。

        4. V3/R1的訓(xùn)練流程

        V3的訓(xùn)練包含預(yù)訓(xùn)練、上下文長(zhǎng)度擴(kuò)展和后訓(xùn)練三個(gè)階段,后訓(xùn)練包括SFT和強(qiáng)化學(xué)習(xí)。R1則在V3基礎(chǔ)上,采用多階段訓(xùn)練,包括冷啟動(dòng)SFT、面向推理的強(qiáng)化學(xué)習(xí)、拒絕采樣SFT和面向全場(chǎng)景的強(qiáng)化學(xué)習(xí)與對(duì)齊。

        R1-Zero采用無SFT的純強(qiáng)化學(xué)習(xí)訓(xùn)練,展現(xiàn)出強(qiáng)大的推理能力,但需要解決可讀性和語言一致性問題。R1則在R1-Zero基礎(chǔ)上,通過SFT和強(qiáng)化學(xué)習(xí),提升了模型的可讀性和魯棒性。

        5. 模型蒸餾

        DeepSeek通過模型蒸餾技術(shù),將R1的推理能力遷移到更小的Dense模型,擴(kuò)展其應(yīng)用場(chǎng)景。

        6. 結(jié)語

        DeepSeek在算法架構(gòu)和AI Infra方面都展現(xiàn)出領(lǐng)先優(yōu)勢(shì),其成果值得肯定。但應(yīng)理性看待其影響力,避免過度宣傳。DeepSeek的成功也為國(guó)產(chǎn)AI芯片發(fā)展提供了啟示,國(guó)產(chǎn)AI芯片應(yīng)抓住機(jī)遇,發(fā)展新架構(gòu)和技術(shù),提升算力效率。


        聯(lián)系作者

        文章來源:智猩猩GenAI
        作者微信:
        作者簡(jiǎn)介:智猩猩旗下賬號(hào),專注于生成式人工智能,主要分享技術(shù)文章、論文成果與產(chǎn)品信息。

        閱讀原文
        ? 版權(quán)聲明
        Trae官網(wǎng)

        相關(guān)文章

        Trae官網(wǎng)

        暫無評(píng)論

        暫無評(píng)論...
        主站蜘蛛池模板: 亚洲国产婷婷综合在线精品| 午夜精品免费在线观看 | 亚洲一级毛片免费看| 国产在线观看xxxx免费| 精品国产污污免费网站入口在线| 一个人晚上在线观看的免费视频| 免费看一级毛片在线观看精品视频| 美女被免费网站在线视频免费 | 亚洲美女自拍视频| 亚洲午夜成激人情在线影院| 亚洲av无码电影网| 国产亚洲精品影视在线| 亚洲精品美女久久久久久久| 美女羞羞喷液视频免费| 久青草视频在线观看免费| 国产午夜精品免费一区二区三区 | 国产成人人综合亚洲欧美丁香花 | 亚洲成色www久久网站夜月| 亚洲精品高清视频| 亚洲国产精品成人综合久久久| 亚洲人成电影在线观看青青| 亚洲日韩精品无码专区加勒比| 理论亚洲区美一区二区三区 | 亚洲精品美女在线观看| 亚洲中文字幕人成乱码| 亚洲AV日韩AV无码污污网站| 一级做a爰性色毛片免费| 99久久99这里只有免费的精品| 91禁漫免费进入| 日韩免费高清一级毛片在线| 亚洲国产婷婷综合在线精品| 亚洲AV天天做在线观看| 亚洲一区二区三区无码国产| 国产亚洲精品美女| 可以免费观看的国产视频| 久九九精品免费视频| 一区二区三区亚洲视频| 亚洲国产人成在线观看69网站| 中文字幕在线日亚洲9| jizz免费观看| 100000免费啪啪18免进|