我們應(yīng)如何看待DeepSeek的557.6萬(wàn)美元訓(xùn)練成本？｜甲子光年

不要模糊了DeepSeek的真正價(jià)值。

原標(biāo)題：我們應(yīng)如何看待DeepSeek的557.6萬(wàn)美元訓(xùn)練成本？｜甲子光年
文章來(lái)源：甲子光年
內(nèi)容字?jǐn)?shù)：13291字

DeepSeek-V3：降本增效的理性解讀

本文探討了DeepSeek-V3大模型訓(xùn)練成本大幅降低背后的，糾正了部分夸大宣傳，并深入分析了其降本增效的策略。

1. 訓(xùn)練成本：并非“幾十分之一”

DeepSeek-V3的訓(xùn)練成本為557.6萬(wàn)美元，遠(yuǎn)低于坊間流傳的“中國(guó)AI企業(yè)用幾百萬(wàn)美元的成本打敗了美國(guó)AI企業(yè)數(shù)億美元的投入”的說(shuō)法。文章指出，這一數(shù)字僅包含正式訓(xùn)練階段的成本，未計(jì)入前期研究、消融實(shí)驗(yàn)等“隱性成本”，且計(jì)算方式也影響最終結(jié)果。通過(guò)對(duì)標(biāo)GPT-4、Llama 3.1和Claude 3.5 Sonnet等模型，文章估算了它們的訓(xùn)練成本，發(fā)現(xiàn)DeepSeek-V3的成本雖然大幅降低，但并非達(dá)到“幾十分之一”的夸張程度。

2. DeepSeek的降本增效策略

DeepSeek-V3的成功并非偶然，其核心在于算法、框架和硬件的協(xié)同優(yōu)化設(shè)計(jì)。文章詳細(xì)介紹了DeepSeek團(tuán)隊(duì)在四個(gè)方面的優(yōu)化策略：

負(fù)載均衡優(yōu)化：采用“Auxiliary-loss-free”方案，避免了傳統(tǒng)MoE模型中輔助損失帶來(lái)的負(fù)面影響，實(shí)現(xiàn)了動(dòng)態(tài)調(diào)整專家的負(fù)載。
通信優(yōu)化：提出了DualPipe算法，通過(guò)重疊計(jì)算和通信階段，最大限度地減少GPU空閑時(shí)間，并采用雙向流水線機(jī)制，提高GPU利用率。
內(nèi)存優(yōu)化：采用了重計(jì)算、使用CPU內(nèi)存和參數(shù)共享等策略，有效降低了內(nèi)存消耗。
計(jì)算優(yōu)化：采用混合精度訓(xùn)練策略（FP8），加速訓(xùn)練并減少GPU內(nèi)存使用。

這些優(yōu)化策略共同作用，顯著提升了模型訓(xùn)練效率，從而降低了訓(xùn)練成本。 DeepSeek在有限的GPU資源和性能下，完成了與Llama 3.1 405B相近的訓(xùn)練量，體現(xiàn)了其在模型訓(xùn)練效率上的顯著提升。

3. “小米加”式的成功

文章將DeepSeek的成功比作“小米加”，強(qiáng)調(diào)其成功并非依賴于某種單一突破性技術(shù)，而是扎實(shí)的基礎(chǔ)研究和對(duì)細(xì)節(jié)的極致追求。DeepSeek團(tuán)隊(duì)注重第一性原理的思考，深入理解算法、軟件和硬件的底層邏輯，并進(jìn)行細(xì)致的優(yōu)化，最終取得了顯著成果。這體現(xiàn)了腳踏實(shí)地、持續(xù)創(chuàng)新的重要性。

總而言之，DeepSeek-V3的成功是團(tuán)隊(duì)長(zhǎng)期努力和技術(shù)積累的結(jié)果，其降本增效的核心在于對(duì)算法、框架和硬件的協(xié)同優(yōu)化設(shè)計(jì)，而不是簡(jiǎn)單的成本優(yōu)勢(shì)。我們應(yīng)該理性看待DeepSeek的成就，避免夸大宣傳，也避免低估其技術(shù)價(jià)值。

聯(lián)系作者

文章來(lái)源：甲子光年
作者微信：
作者簡(jiǎn)介：甲子光年是一家科技智庫(kù)，包含智庫(kù)、社群、企業(yè)服務(wù)版塊，立足中國(guó)科技創(chuàng)新前沿陣地，動(dòng)態(tài)跟蹤頭部科技企業(yè)發(fā)展和傳統(tǒng)產(chǎn)業(yè)技術(shù)升級(jí)案例，推動(dòng)人工智能、大數(shù)據(jù)、物聯(lián)網(wǎng)、云計(jì)算、新能源、新材料、信息安全、大健康等科技創(chuàng)新在產(chǎn)業(yè)中的應(yīng)用與落地。

閱讀原文