DeepSeek-V3出技術報告了。
原標題:國產大模型DeepSeek-V3一夜火爆全球,671B的MoE,訓練成本僅558萬美元
文章來源:智猩猩GenAI
內容字數:5965字
國產大模型DeepSeek-V3驚艷全球
本文概述了國產大模型DeepSeek-V3的驚人性能及其背后的技術創新,并簡要介紹了即將在北京舉辦的第四屆全球自動駕駛峰會。
1. DeepSeek-V3:高效、強大的開源大模型
參數量高達671B的DeepSeek-V3,其預訓練過程僅耗費278.8萬H800 GPU小時,遠低于其他同級別模型。盡管訓練成本低,其性能卻足以比肩甚至超越GPT-4o和Claude 3.5 Sonnet等閉源模型,尤其在數學和代碼任務上表現突出。這一突破主要歸功于其采用的MLA(多頭隱注意力)和DeepSeekMoE架構,以及無輔助損失的負載平衡策略和多token預測訓練目標等技術創新。
2. DeepSeek-V3的技術細節
為了實現高效推理和經濟訓練,DeepSeek-V3采用了MLA和DeepSeekMoE架構。 它還引入了多token預測(MTP)訓練目標,以提高性能。與DeepSeek-V2相比,DeepSeek-V3在DeepSeekMoE中增加了輔助無損耗負載平衡策略,以提升效率。預訓練數據包含14.8萬億高質量token,并經過監督式微調和強化學習。模型的Transformer層數為61,隱藏層維度為7168,使用了128個注意力頭,每個頭維度為128。通過兩階段擴展訓練,DeepSeek-V3能夠處理長達128K的輸入。
3. DeepSeek-V3的性能評估
DeepSeek-V3在多個基準測試中全面超越了DeepSeek-V2、Qwen2.5 72B Base和LLaMA-3.1 405B Base等開源模型,成為目前最強大的開源模型之一。尤其在英語、代碼、數學和多語言任務上表現出色。其在AGIEval、CMath、MMMLU-non-English等任務上的表現甚至遠遠超過其他開源大模型。
4. 業界對DeepSeek-V3的評價
Meta AI研究科學家田淵棟、著名AI科學家Andrej Karpathy以及正在創業的著名研究者賈揚清都對DeepSeek-V3給予了高度評價,認為其在資源有限的情況下取得了卓越的成果,并標志著分布式推理時代的到來。
5. DeepSeek-V3的影響
DeepSeek-V3的開源發布迅速引發了廣泛關注,其在OpenRouter平臺上的使用量已翻了三倍。用戶們紛紛分享其使用體驗,再次點燃了人們對開源模型的熱情。
6. 第四屆全球自動駕駛峰會
文章開頭提到,1月14日,第四屆全球自動駕駛峰會將在北京舉辦。峰會將涵蓋自動駕駛領域的多個主題,包括端到端自動駕駛創新、城市NOA、自動駕駛視覺語言模型和自動駕駛世界模型等,多位業內專家將進行主題分享。
總而言之,DeepSeek-V3憑借其高效的訓練和強大的性能,在人工智能領域取得了重大突破,并為開源大模型的發展樹立了新的標桿。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,深入關注大模型與AI智能體,及時搜羅生成式AI技術產品。