原標題:Deepseek v3 實測來了!智商,情商不存在,自信退出價格戰
文章來源:夕小瑤科技說
內容字數:6464字
DeepSeek V3:高智商低情商的國產大模型新秀
近日,國產大模型DeepSeek發布了其最新版本V3,引發業內廣泛關注。這款模型以其強大的性能和相對低廉的成本,成為開源大模型領域的新標桿,但也暴露出在情商方面存在的不足。
性能突破與價格上漲
DeepSeek V3在多個基準測試中表現出色,在數學、代碼和部分多語言能力方面超越了包括LLaMA-3.1 405B在內的多個開源模型,甚至與閉源模型Claude 3.5 Sonnet和GPT-4o不相上下。然而,其API價格也相應上漲,盡管如此,其價格仍遠低于Claude 3.5 Sonnet。
智商測試:驚艷表現
實際測試中,DeepSeek V3在復雜的編程題和部分數學題上表現令人驚艷,成功解決了難倒眾多其他模型的問題,展現了其強大的代碼能力和數學推理能力。即使在一些復雜的數學競賽題上,雖然不如新一代推理范式模型,但在簡單的數學題上表現優秀,甚至在圖片識別題上也出乎意料地取得了不錯的成績。
情商測試:仍需提升
然而,DeepSeek V3在情商測試中表現欠佳,未能正確應對一些需要理解人類情感和社會常識的題目,凸顯了其在情商方面的不足。這與追求安全性和避免偏見的目標有關,但也成為其一個明顯的短板。
技術細節:高效訓練
DeepSeek V3的成功與其高效的訓練方法密切相關。它僅使用2048塊GPU,耗時兩個月,成本約557.6萬美元,就完成了訓練,這遠低于其他同等性能模型的訓練成本,也證明了資源利用和算法優化的重要性。其核心技術包括MoE架構、YaRN技術以及對數學和編程樣本比例的提升。
結論:高性能與高性價比的平衡
DeepSeek V3的出現,改變了大模型領域“算力決定一切”的傳統觀念,證明了在資源受限的情況下,通過優化模型架構、訓練策略和數據篩選,也能取得突破性的進展。雖然在情商方面仍有待提升,但其高性能、高性價比的特點,使其成為開源大模型領域一顆冉冉升起的新星。
聯系作者
文章來源:夕小瑤科技說
作者微信:
作者簡介:低負擔解碼AI世界,硬核也可愛!聚集35萬AI發燒友、開發者和從業者,廣泛覆蓋互聯網大廠中高管、AI公司創始人和機構投資人。一線作者來自清北、國內外頂級AI實驗室和大廠,兼備敏銳的行業嗅覺和洞察深度。商務合作:zym5189