MTP技術詳解。
原標題:DeepSeek技術解讀2:如何一次性預測多個token
文章來源:智猩猩GenAI
內容字數:13842字
DeepSeek-V3 的MTP方法詳解
本文詳細解讀了DeepSeek-V3中的多標記預測(MTP)方法,并將其與其他類似工作進行比較。文章從動機、方法探索和DeepSeek-V3的具體實現三個方面展開,并對MTP在訓練和推理階段的應用進行了深入分析。
1. MTP方法的動機
當前主流的大型語言模型(LLMs)采用解碼器-基礎模型結構,以token-by-token的方式進行序列生成。這種方式導致頻繁的訪存交互,成為訓練和推理的瓶頸。MTP方法的核心思想是將1-token的生成轉變為multi-token的生成,從而提升訓練和推理效率。在訓練階段,一次生成多個token可以提高樣本利用效率,加速模型收斂;在推理階段,一次生成多個token可以顯著提升推理速度。
2. MTP方法的探索
文章回顧了MTP方法的演進過程,重點介紹了Google在2018年提出的Blockwise Parallel Decoding和Meta在2024年提出的MTP方法。Blockwise Parallel Decoding主要關注推理階段的加速,通過并行預測多個token并進行驗證來提高效率。Meta的MTP方法則更注重訓練階段的優化,通過一次預測多個token來學習更長的依賴關系,并提高樣本利用效率。
3. DeepSeek MTP方法的實現
DeepSeek-V3的MTP方法在結構上更加復雜,它采用多個順序模塊(Module)來預測多個token,并保留了序列推理的因果鏈關系。每個模塊包含共享的embedding層、Transformer層和輸出頭。DeepSeek V3利用Teacher forcing模式進行訓練,在推理階段則可以使用self-speculative decoding來提高效率。
4. DeepSeek MTP的訓練與推理
DeepSeek V3 的MTP模塊在訓練階段通過交叉熵損失函數計算每個預測頭的損失,并通過對多個token的預測來提高樣本利用率,從而加速模型收斂。推理階段則可以采用兩種方法:一是移除MTP模塊,直接使用主模型進行token-by-token預測;二是保留MTP模塊,進行self-speculative decoding,利用多個預測頭并行生成token,提高推理速度。
5. 總結
本文對DeepSeek-V3的MTP方法進行了詳細的解讀,并與其他相關工作進行了比較。文章通過圖示和公式對MTP的網絡結構、訓練過程和推理過程進行了清晰的闡述,為讀者理解MTP方法提供了有益的參考。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,專注于生成式人工智能。