Deepseek v3 實(shí)測(cè)來了!智商,情商不存在,自信退出價(jià)格戰(zhàn)
原標(biāo)題:Deepseek v3 實(shí)測(cè)來了!智商,情商不存在,自信退出價(jià)格戰(zhàn)
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):6464字
DeepSeek V3:高智商低情商的國產(chǎn)大模型新秀
近日,國產(chǎn)大模型DeepSeek發(fā)布了其最新版本V3,引發(fā)業(yè)內(nèi)廣泛關(guān)注。這款模型以其強(qiáng)大的性能和相對(duì)低廉的成本,成為開源大模型領(lǐng)域的新標(biāo)桿,但也暴露出在情商方面存在的不足。
性能突破與價(jià)格上漲
DeepSeek V3在多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)出色,在數(shù)學(xué)、代碼和部分多語言能力方面超越了包括LLaMA-3.1 405B在內(nèi)的多個(gè)開源模型,甚至與閉源模型Claude 3.5 Sonnet和GPT-4o不相上下。然而,其API價(jià)格也相應(yīng)上漲,盡管如此,其價(jià)格仍遠(yuǎn)低于Claude 3.5 Sonnet。
智商測(cè)試:驚艷表現(xiàn)
實(shí)際測(cè)試中,DeepSeek V3在復(fù)雜的編程題和部分?jǐn)?shù)學(xué)題上表現(xiàn)令人驚艷,成功解決了難倒眾多其他模型的問題,展現(xiàn)了其強(qiáng)大的代碼能力和數(shù)學(xué)推理能力。即使在一些復(fù)雜的數(shù)學(xué)競(jìng)賽題上,雖然不如新一代推理范式模型,但在簡(jiǎn)單的數(shù)學(xué)題上表現(xiàn)優(yōu)秀,甚至在圖片識(shí)別題上也出乎意料地取得了不錯(cuò)的成績(jī)。
情商測(cè)試:仍需提升
然而,DeepSeek V3在情商測(cè)試中表現(xiàn)欠佳,未能正確應(yīng)對(duì)一些需要理解人類情感和社會(huì)常識(shí)的題目,凸顯了其在情商方面的不足。這與追求安全性和避免偏見的目標(biāo)有關(guān),但也成為其一個(gè)明顯的短板。
技術(shù)細(xì)節(jié):高效訓(xùn)練
DeepSeek V3的成功與其高效的訓(xùn)練方法密切相關(guān)。它僅使用2048塊GPU,耗時(shí)兩個(gè)月,成本約557.6萬美元,就完成了訓(xùn)練,這遠(yuǎn)低于其他同等性能模型的訓(xùn)練成本,也證明了資源利用和算法優(yōu)化的重要性。其核心技術(shù)包括MoE架構(gòu)、YaRN技術(shù)以及對(duì)數(shù)學(xué)和編程樣本比例的提升。
結(jié)論:高性能與高性價(jià)比的平衡
DeepSeek V3的出現(xiàn),改變了大模型領(lǐng)域“算力決定一切”的傳統(tǒng)觀念,證明了在資源受限的情況下,通過優(yōu)化模型架構(gòu)、訓(xùn)練策略和數(shù)據(jù)篩選,也能取得突破性的進(jìn)展。雖然在情商方面仍有待提升,但其高性能、高性價(jià)比的特點(diǎn),使其成為開源大模型領(lǐng)域一顆冉冉升起的新星。
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:
作者簡(jiǎn)介:低負(fù)擔(dān)解碼AI世界,硬核也可愛!聚集35萬AI發(fā)燒友、開發(fā)者和從業(yè)者,廣泛覆蓋互聯(lián)網(wǎng)大廠中高管、AI公司創(chuàng)始人和機(jī)構(gòu)投資人。一線作者來自清北、國內(nèi)外頂級(jí)AI實(shí)驗(yàn)室和大廠,兼?zhèn)涿翡J的行業(yè)嗅覺和洞察深度。商務(wù)合作:zym5189