DeepSeek一天能賺多少錢?官方突然揭秘V3/R1推理系統(tǒng),成本全透明
我們理論上可以賺更多錢,但我們沒有。
原標(biāo)題:DeepSeek一天能賺多少錢?官方突然揭秘V3/R1推理系統(tǒng),成本全透明
文章來源:機器之心
內(nèi)容字數(shù):5970字
DeepSeek開源周“One More Thing”:驚人的推理系統(tǒng)和盈利能力
DeepSeek在“開源周”的第五天結(jié)束后,出人意料地發(fā)布了第六天的內(nèi)容,介紹了其DeepSeek-V3/R1推理系統(tǒng)的細節(jié),并公布了令人震驚的性能數(shù)據(jù)和盈利潛力。
驚人的性能數(shù)據(jù)
DeepSeek-V3/R1推理系統(tǒng)在H800 GPU上實現(xiàn)了極高的吞吐量:每個節(jié)點每秒可處理73.7k個輸入token和14.8k個輸出token。 該系統(tǒng)采用跨節(jié)點專家并行(EP)、計算-通信重疊和負載平衡等技術(shù)來優(yōu)化吞吐量和延遲。如果所有token都按照DeepSeek-R1的最高價格計算,理論上每日收入可達562,027美元,成本利潤率高達545%。然而,實際收入遠低于此數(shù)字,因為V3定價更低,收費服務(wù)只占一部分,且夜間有折扣。
高效的系統(tǒng)設(shè)計
為了實現(xiàn)高吞吐量和低延遲,DeepSeek-V3/R1采用了以下關(guān)鍵設(shè)計原則:
- 跨節(jié)點專家并行(EP):通過將專家分布到多個GPU上,并利用預(yù)填充-解碼分解架構(gòu),在不同階段采用不同程度的并行性,顯著擴展batch大小,提高GPU矩陣計算效率。
- 計算-通信重疊:采用“dual-batch”策略和5階段pipeline,隱藏通信延遲,提高吞吐量。
- 負載平衡:針對預(yù)填充、解碼和專家并行三個階段分別設(shè)計負載平衡器,確保所有GPU的計算和通信負載均衡,避免性能瓶頸。
在線服務(wù)統(tǒng)計與盈利分析
在過去24小時內(nèi),DeepSeek V3和R1推理服務(wù)的峰值節(jié)點占用達到278個,平均占用226.75個節(jié)點。每日總成本約為87,072美元。總輸入token為608B,輸出token為168B。平均輸出速度為每秒20-22個token。 雖然理論上每日收入可觀,但實際收入遠低于此數(shù)字,主要原因是V3定價較低,部分服務(wù)免費,以及夜間折扣的應(yīng)用。
開源周的持續(xù)和未來展望
DeepSeek“開源周”意外延長至第六天,并公布了其推理系統(tǒng)的核心技術(shù)細節(jié)。社區(qū)對DeepSeek的持續(xù)開源舉動以及其強大的推理系統(tǒng)表現(xiàn)出極大的興趣,并期待開源周最后一天的“壓軸”內(nèi)容。
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺