把訓(xùn)練成本打下來(lái)99%!吊打GPT又“征服”O(jiān)penAI創(chuàng)始成員,DeepSeek“國(guó)產(chǎn)之光”實(shí)至名歸?
一家中國(guó) AI 初創(chuàng)公司創(chuàng)建出被用戶(hù)稱(chēng)作 “真正的‘Open’AI ”的人工智能模型。
原標(biāo)題:把訓(xùn)練成本打下來(lái)99%!吊打GPT又“征服”OpenAI創(chuàng)始成員,DeepSeek“國(guó)產(chǎn)之光”實(shí)至名歸?
文章來(lái)源:AI前線(xiàn)
內(nèi)容字?jǐn)?shù):6400字
中國(guó)AI初創(chuàng)公司DeepSeek發(fā)布強(qiáng)大開(kāi)源模型DeepSeek-V3
中國(guó)人工智能初創(chuàng)公司DeepSeek發(fā)布了其最新的大型語(yǔ)言模型DeepSeek-V3,并將其開(kāi)源。該模型參數(shù)規(guī)模達(dá)到6710億,但卻以極低的訓(xùn)練成本(不到600萬(wàn)美元)取得了優(yōu)異的性能,在多個(gè)基準(zhǔn)測(cè)試中超越了包括Meta的Llama 3.1、OpenAI的GPT-4o和阿里巴巴的Qwen 2.5等模型,甚至與閉源模型GPT-4o和Claude-3.5-Sonnet性能相當(dāng),被用戶(hù)譽(yù)為“真正的‘Open’AI”。
1. DeepSeek-V3的卓越性能
DeepSeek-V3在編碼競(jìng)賽平臺(tái)Codeforces以及Aider Polyglot測(cè)試中均取得領(lǐng)先成績(jī)。其在以中文和數(shù)學(xué)為中心的基準(zhǔn)測(cè)試中表現(xiàn)尤其突出,例如在Math-500測(cè)試中得分高達(dá)90.2。雖然在一些以英語(yǔ)為中心的測(cè)試中略遜于GPT-4o,但整體性能已達(dá)到業(yè)界領(lǐng)先水平。DeepSeek V3的優(yōu)勢(shì)在于其高效的訓(xùn)練和推理能力,這得益于其采用的混合專(zhuān)家架構(gòu)和多項(xiàng)技術(shù)創(chuàng)新。
2. 高效的訓(xùn)練與推理
DeepSeek-V3基于多頭潛在注意力(MLA)與DeepSeekMoE架構(gòu),并結(jié)合輔助無(wú)損負(fù)載均衡策略和多 token 預(yù)測(cè)(MTP)技術(shù),實(shí)現(xiàn)了高效的訓(xùn)練和推理。MTP技術(shù)將模型的執(zhí)行速度提高了三倍,每秒可生成60個(gè) token。通過(guò)算法和工程優(yōu)化,包括FP8混合精度訓(xùn)練框架和DualPipe算法,DeepSeek-V3的訓(xùn)練成本遠(yuǎn)低于其他同級(jí)別模型,僅需約557萬(wàn)美元。
3. 低廉的訓(xùn)練成本引發(fā)的討論
DeepSeek-V3的低訓(xùn)練成本引發(fā)了業(yè)界廣泛關(guān)注。OpenAI創(chuàng)始人之一Andrej Karpathy對(duì)如此低的成本表示震驚,認(rèn)為這在資源受限的環(huán)境下是一個(gè)令人印象深刻的成就。一些專(zhuān)家認(rèn)為,這表明在人工智能領(lǐng)域,算法和工程優(yōu)化可能比單純的算力投入更重要,也可能暗示著對(duì)高端半導(dǎo)體出口禁令適得其反,反而促進(jìn)了中國(guó)研究人員的創(chuàng)新。
4. DeepSeek-V3的商業(yè)化和用戶(hù)反饋
DeepSeek-V3的代碼已通過(guò)GitHub基于MIT許可開(kāi)源,用戶(hù)也可以通過(guò)DeepSeek Chat平臺(tái)測(cè)試該模型并訪(fǎng)問(wèn)API進(jìn)行商業(yè)使用。DeepSeek-V3的定價(jià)策略也獲得了用戶(hù)好評(píng),被認(rèn)為具有極高的性?xún)r(jià)比。用戶(hù)對(duì)其理解能力和解決復(fù)雜問(wèn)題的能力表示贊賞,甚至有用戶(hù)用其解答了此前其他模型無(wú)法解決的難題。
5. 未來(lái)展望
DeepSeek-V3的出現(xiàn)標(biāo)志著開(kāi)源大型語(yǔ)言模型發(fā)展的新階段,其低廉的訓(xùn)練成本和卓越的性能為更廣泛的應(yīng)用提供了可能性。 未來(lái),DeepSeek-V3的進(jìn)一步發(fā)展和應(yīng)用值得期待。
聯(lián)系作者
文章來(lái)源:AI前線(xiàn)
作者微信:
作者簡(jiǎn)介:面向AI愛(ài)好者、開(kāi)發(fā)者和科學(xué)家,提供大模型最新資訊、AI技術(shù)分享干貨、一線(xiàn)業(yè)界實(shí)踐案例,助你全面擁抱AIGC。