國產開源模型,代碼能力比肩 Claude,DeepSeek-V3 正式發布
性能比肩世界頂尖模型,速度躍升,價格更新
原標題:國產開源模型,代碼能力比肩 Claude,DeepSeek-V3 正式發布
文章來源:Founder Park
內容字數:3160字
DeepSeek-V3:開源大模型的強力競爭者
DeepSeek 團隊近日發布了其全新系列模型 DeepSeek-V3 的首個版本,并同步開源。該模型在多個評測中展現出強大的性能,與頂級閉源模型比肩,甚至在某些方面超越了它們,成為開源大模型領域的一匹黑馬。
性能卓越,比肩頂級閉源模型
DeepSeek-V3 擁有 671B 參數,激活 37B,在 14.8T token 上進行了預訓練。其性能在多項評測中超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他開源模型,并在知識類任務、長文本處理、代碼生成和數學推理等方面與 GPT-4o 和 Claude-3.5-Sonnet 旗鼓相當。尤其值得一提的是,DeepSeek-V3 在代碼能力方面,遠遠領先于其他非 o1 類模型,在工程類代碼場景中也逼近了 Claude-3.5-Sonnet。
顯著提升的中文能力和生成速度
在中文能力方面,DeepSeek-V3 在 C-Eval 和代詞消歧等評測集上與 Qwen2.5-72B 表現接近,但在事實知識 C-SimpleQA 上更為領先。此外,DeepSeek-V3 的生成速度提升了 3 倍,從 20 TPS 提升至 60 TPS,顯著改善了用戶體驗。
開源權重和本地部署支持
DeepSeek-V3 采用 FP8 訓練,并開源了原生 FP8 權重,方便社區進行本地部署。多個推理引擎,如 SGLang、LMDeploy、TensorRT-LLM 和 MindIE 等,都已支持 DeepSeek-V3 的推理。同時,DeepSeek 提供了 FP8 到 BF16 的轉換腳本,進一步提升了模型的適配性和應用場景。
API 服務及價格調整
DeepSeek-V3 的 API 服務已同步更新,接口配置無需改動。為了持續提供更好的服務,API 價格進行了調整,但同時提供了長達 45 天的優惠期,從即日起至 2025 年 2 月 8 日,用戶可以享受優惠價格。
開源精神與未來展望
DeepSeek 秉持開源精神,致力于普惠 AGI。DeepSeek-V3 是其在模型預訓練方面的階段性成果,未來將在此基礎上繼續開發深度思考、多模態等功能,并持續與社區分享最新成果。
總而言之,DeepSeek-V3 的發布對開源大模型領域具有重大意義,它不僅展現了國內團隊在 AI 領域的強大實力,也為開源社區帶來了一個性能卓越、易于部署的強大工具,進一步縮小了開源模型與閉源模型之間的差距。
聯系作者
文章來源:Founder Park
作者微信:
作者簡介:來自極客公園,專注與科技創業者聊「真問題」。