把訓(xùn)練成本打下來(lái)99%！吊打GPT又“征服”O(jiān)penAI創(chuàng)始成員，DeepSeek“國(guó)產(chǎn)之光”實(shí)至名歸？

AIGC動(dòng)態(tài)5個(gè)月前發(fā)布 AI前線(xiàn)

一家中國(guó) AI 初創(chuàng)公司創(chuàng)建出被用戶(hù)稱(chēng)作 “真正的‘Open’AI ”的人工智能模型。

原標(biāo)題：把訓(xùn)練成本打下來(lái)99%！吊打GPT又“征服”OpenAI創(chuàng)始成員，DeepSeek“國(guó)產(chǎn)之光”實(shí)至名歸？
文章來(lái)源：AI前線(xiàn)
內(nèi)容字?jǐn)?shù)：6400字

中國(guó)AI初創(chuàng)公司DeepSeek發(fā)布強(qiáng)大開(kāi)源模型DeepSeek-V3

中國(guó)人工智能初創(chuàng)公司DeepSeek發(fā)布了其最新的大型語(yǔ)言模型DeepSeek-V3，并將其開(kāi)源。該模型參數(shù)規(guī)模達(dá)到6710億，但卻以極低的訓(xùn)練成本（不到600萬(wàn)美元）取得了優(yōu)異的性能，在多個(gè)基準(zhǔn)測(cè)試中超越了包括Meta的Llama 3.1、OpenAI的GPT-4o和阿里巴巴的Qwen 2.5等模型，甚至與閉源模型GPT-4o和Claude-3.5-Sonnet性能相當(dāng)，被用戶(hù)譽(yù)為“真正的‘Open’AI”。

1. DeepSeek-V3的卓越性能

DeepSeek-V3在編碼競(jìng)賽平臺(tái)Codeforces以及Aider Polyglot測(cè)試中均取得領(lǐng)先成績(jī)。其在以中文和數(shù)學(xué)為中心的基準(zhǔn)測(cè)試中表現(xiàn)尤其突出，例如在Math-500測(cè)試中得分高達(dá)90.2。雖然在一些以英語(yǔ)為中心的測(cè)試中略遜于GPT-4o，但整體性能已達(dá)到業(yè)界領(lǐng)先水平。DeepSeek V3的優(yōu)勢(shì)在于其高效的訓(xùn)練和推理能力，這得益于其采用的混合專(zhuān)家架構(gòu)和多項(xiàng)技術(shù)創(chuàng)新。

2. 高效的訓(xùn)練與推理

DeepSeek-V3基于多頭潛在注意力（MLA）與DeepSeekMoE架構(gòu)，并結(jié)合輔助無(wú)損負(fù)載均衡策略和多 token 預(yù)測(cè)（MTP）技術(shù)，實(shí)現(xiàn)了高效的訓(xùn)練和推理。MTP技術(shù)將模型的執(zhí)行速度提高了三倍，每秒可生成60個(gè) token。通過(guò)算法和工程優(yōu)化，包括FP8混合精度訓(xùn)練框架和DualPipe算法，DeepSeek-V3的訓(xùn)練成本遠(yuǎn)低于其他同級(jí)別模型，僅需約557萬(wàn)美元。

3. 低廉的訓(xùn)練成本引發(fā)的討論

DeepSeek-V3的低訓(xùn)練成本引發(fā)了業(yè)界廣泛關(guān)注。OpenAI創(chuàng)始人之一Andrej Karpathy對(duì)如此低的成本表示震驚，認(rèn)為這在資源受限的環(huán)境下是一個(gè)令人印象深刻的成就。一些專(zhuān)家認(rèn)為，這表明在人工智能領(lǐng)域，算法和工程優(yōu)化可能比單純的算力投入更重要，也可能暗示著對(duì)高端半導(dǎo)體出口禁令適得其反，反而促進(jìn)了中國(guó)研究人員的創(chuàng)新。

4. DeepSeek-V3的商業(yè)化和用戶(hù)反饋

DeepSeek-V3的代碼已通過(guò)GitHub基于MIT許可開(kāi)源，用戶(hù)也可以通過(guò)DeepSeek Chat平臺(tái)測(cè)試該模型并訪(fǎng)問(wèn)API進(jìn)行商業(yè)使用。DeepSeek-V3的定價(jià)策略也獲得了用戶(hù)好評(píng)，被認(rèn)為具有極高的性?xún)r(jià)比。用戶(hù)對(duì)其理解能力和解決復(fù)雜問(wèn)題的能力表示贊賞，甚至有用戶(hù)用其解答了此前其他模型無(wú)法解決的難題。

5. 未來(lái)展望

DeepSeek-V3的出現(xiàn)標(biāo)志著開(kāi)源大型語(yǔ)言模型發(fā)展的新階段，其低廉的訓(xùn)練成本和卓越的性能為更廣泛的應(yīng)用提供了可能性。未來(lái)，DeepSeek-V3的進(jìn)一步發(fā)展和應(yīng)用值得期待。

聯(lián)系作者

文章來(lái)源：AI前線(xiàn)
作者微信：
作者簡(jiǎn)介：面向AI愛(ài)好者、開(kāi)發(fā)者和科學(xué)家，提供大模型最新資訊、AI技術(shù)分享干貨、一線(xiàn)業(yè)界實(shí)踐案例，助你全面擁抱AIGC。

閱讀原文

# AIGC動(dòng)態(tài)# AI模型訓(xùn)練效率 # DeepSeek # OpenAI競(jìng)爭(zhēng)對(duì)手 # 國(guó)產(chǎn)AI模型 # 大模型訓(xùn)練成本降低

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。

暫無(wú)評(píng)論

暫無(wú)評(píng)論...

把訓(xùn)練成本打下來(lái)99%！吊打GPT又“征服”O(jiān)penAI創(chuàng)始成員，DeepSeek“國(guó)產(chǎn)之光”實(shí)至名歸？

一家中國(guó) AI 初創(chuàng)公司創(chuàng)建出被用戶(hù)稱(chēng)作 “真正的‘Open’AI ”的人工智能模型。

中國(guó)AI初創(chuàng)公司DeepSeek發(fā)布強(qiáng)大開(kāi)源模型DeepSeek-V3

1. DeepSeek-V3的卓越性能

2. 高效的訓(xùn)練與推理

3. 低廉的訓(xùn)練成本引發(fā)的討論

4. DeepSeek-V3的商業(yè)化和用戶(hù)反饋

5. 未來(lái)展望

聯(lián)系作者

首篇「角色扮演AI」綜述！復(fù)旦等提出大模型三層人格分類(lèi)框架：群體、角色、個(gè)性化 | TMLR

國(guó)產(chǎn)之光DeepSeek把AI大佬全炸出來(lái)了！671B大模型訓(xùn)練只需此前算力1/10，細(xì)節(jié)全公開(kāi)

相關(guān)文章

暫無(wú)評(píng)論

ChatGPT

畢業(yè)論文生成器

AIGC熱點(diǎn)