我們應(yīng)如何看待DeepSeek的557.6萬(wàn)美元訓(xùn)練成本?|甲子光年
不要模糊了DeepSeek的真正價(jià)值。
原標(biāo)題:我們應(yīng)如何看待DeepSeek的557.6萬(wàn)美元訓(xùn)練成本?|甲子光年
文章來(lái)源:甲子光年
內(nèi)容字?jǐn)?shù):13291字
DeepSeek-V3:降本增效的理性解讀
本文探討了DeepSeek-V3大模型訓(xùn)練成本大幅降低背后的,糾正了部分夸大宣傳,并深入分析了其降本增效的策略。
1. 訓(xùn)練成本:并非“幾十分之一”
DeepSeek-V3的訓(xùn)練成本為557.6萬(wàn)美元,遠(yuǎn)低于坊間流傳的“中國(guó)AI企業(yè)用幾百萬(wàn)美元的成本打敗了美國(guó)AI企業(yè)數(shù)億美元的投入”的說(shuō)法。文章指出,這一數(shù)字僅包含正式訓(xùn)練階段的成本,未計(jì)入前期研究、消融實(shí)驗(yàn)等“隱性成本”,且計(jì)算方式也影響最終結(jié)果。通過(guò)對(duì)標(biāo)GPT-4、Llama 3.1和Claude 3.5 Sonnet等模型,文章估算了它們的訓(xùn)練成本,發(fā)現(xiàn)DeepSeek-V3的成本雖然大幅降低,但并非達(dá)到“幾十分之一”的夸張程度。
2. DeepSeek的降本增效策略
DeepSeek-V3的成功并非偶然,其核心在于算法、框架和硬件的協(xié)同優(yōu)化設(shè)計(jì)。文章詳細(xì)介紹了DeepSeek團(tuán)隊(duì)在四個(gè)方面的優(yōu)化策略:
- 負(fù)載均衡優(yōu)化:采用“Auxiliary-loss-free”方案,避免了傳統(tǒng)MoE模型中輔助損失帶來(lái)的負(fù)面影響,實(shí)現(xiàn)了動(dòng)態(tài)調(diào)整專家的負(fù)載。
- 通信優(yōu)化:提出了DualPipe算法,通過(guò)重疊計(jì)算和通信階段,最大限度地減少GPU空閑時(shí)間,并采用雙向流水線機(jī)制,提高GPU利用率。
- 內(nèi)存優(yōu)化:采用了重計(jì)算、使用CPU內(nèi)存和參數(shù)共享等策略,有效降低了內(nèi)存消耗。
- 計(jì)算優(yōu)化:采用混合精度訓(xùn)練策略(FP8),加速訓(xùn)練并減少GPU內(nèi)存使用。
這些優(yōu)化策略共同作用,顯著提升了模型訓(xùn)練效率,從而降低了訓(xùn)練成本。 DeepSeek在有限的GPU資源和性能下,完成了與Llama 3.1 405B相近的訓(xùn)練量,體現(xiàn)了其在模型訓(xùn)練效率上的顯著提升。
3. “小米加”式的成功
文章將DeepSeek的成功比作“小米加”,強(qiáng)調(diào)其成功并非依賴于某種單一突破性技術(shù),而是扎實(shí)的基礎(chǔ)研究和對(duì)細(xì)節(jié)的極致追求。DeepSeek團(tuán)隊(duì)注重第一性原理的思考,深入理解算法、軟件和硬件的底層邏輯,并進(jìn)行細(xì)致的優(yōu)化,最終取得了顯著成果。這體現(xiàn)了腳踏實(shí)地、持續(xù)創(chuàng)新的重要性。
總而言之,DeepSeek-V3的成功是團(tuán)隊(duì)長(zhǎng)期努力和技術(shù)積累的結(jié)果,其降本增效的核心在于對(duì)算法、框架和硬件的協(xié)同優(yōu)化設(shè)計(jì),而不是簡(jiǎn)單的成本優(yōu)勢(shì)。 我們應(yīng)該理性看待DeepSeek的成就,避免夸大宣傳,也避免低估其技術(shù)價(jià)值。
聯(lián)系作者
文章來(lái)源:甲子光年
作者微信:
作者簡(jiǎn)介:甲子光年是一家科技智庫(kù),包含智庫(kù)、社群、企業(yè)服務(wù)版塊,立足中國(guó)科技創(chuàng)新前沿陣地,動(dòng)態(tài)跟蹤頭部科技企業(yè)發(fā)展和傳統(tǒng)產(chǎn)業(yè)技術(shù)升級(jí)案例,推動(dòng)人工智能、大數(shù)據(jù)、物聯(lián)網(wǎng)、云計(jì)算、新能源、新材料、信息安全、大健康等科技創(chuàng)新在產(chǎn)業(yè)中的應(yīng)用與落地。