清華翟季冬:DeepSeek 百倍算力效能背后的系統(tǒng) | 智者訪談
中美硬件差異下的算力突圍
原標(biāo)題:清華翟季冬:DeepSeek 百倍算力效能背后的系統(tǒng) | 智者訪談
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):15615字
DeepSeek 引發(fā)的 AI 算力:系統(tǒng)軟件的創(chuàng)新與機(jī)遇
2025 年伊始,DeepSeek 團(tuán)隊(duì)以 2048 張 H800 GPU,在兩個(gè)月內(nèi)訓(xùn)練出媲美全球頂尖水平的大模型,打破了 AI 領(lǐng)域“更大即更好”的傳統(tǒng)觀念,引發(fā)了業(yè)界對算力利用效率的深刻反思。
1. DeepSeek 的成功:算法與系統(tǒng)軟件的協(xié)同創(chuàng)新
DeepSeek 的突破并非僅僅依賴算力規(guī)模,更在于其在算法和系統(tǒng)軟件層面的深度創(chuàng)新。 它采用創(chuàng)新的 MoE 架構(gòu),并通過精細(xì)化的系統(tǒng)工程優(yōu)化,例如雙向流水并行機(jī)制、混合精度計(jì)算和低精度通信策略等,極大地提升了性價(jià)比,實(shí)現(xiàn)了百倍的性能提升。這表明,在算力資源受限的情況下,通過算法和軟件的協(xié)同創(chuàng)新,能夠充分挖掘硬件的極致性能。
2. 算力效能評估的新視角:超越 GPU 利用率
文章指出,單純依靠 GPU 利用率來評估算力利用效率是不夠全面的。 一個(gè)有效的評估體系需要考慮整個(gè)集群的資源利用情況,包括網(wǎng)絡(luò)、存儲等,并且要根據(jù)不同的應(yīng)用場景(訓(xùn)練、推理)選擇合適的指標(biāo),例如吞吐量、延遲和成本等。降低推理成本對于 AI 應(yīng)用的推廣至關(guān)重要。
3. 中美硬件差異下的軟件思考:探索中國特色發(fā)展路徑
由于中美在硬件方面的差異,中國需要探索出一條符合自身現(xiàn)實(shí)情況的 AI 發(fā)展路徑。 這需要學(xué)習(xí)借鑒國外的先進(jìn)經(jīng)驗(yàn),同時(shí)針對國產(chǎn)芯片的特點(diǎn)進(jìn)行創(chuàng)新,打通從應(yīng)用到系統(tǒng)軟件再到自主芯片的完整鏈路。 這不僅是技術(shù)創(chuàng)新,更是戰(zhàn)略抉擇。
4. Transformer 專用芯片的挑戰(zhàn)與機(jī)遇
目前,尚未出現(xiàn)專門針對 Transformer 的專用芯片,這主要是因?yàn)?AI 模型發(fā)展迅速,Transformer 架構(gòu)也持續(xù)演進(jìn),難以設(shè)計(jì)出通用的、長期有效的專用芯片。 NVIDIA 的做法——通過相對穩(wěn)定的硬件架構(gòu)和靈活的軟件適配——為我們提供了寶貴的經(jīng)驗(yàn)。
5. 萬卡集群訓(xùn)練的挑戰(zhàn)與系統(tǒng)軟件的應(yīng)對
萬卡集群訓(xùn)練面臨著并行策略選擇、通信效率、容錯(cuò)機(jī)制和單卡性能等多方面的挑戰(zhàn)。 未來,系統(tǒng)軟件需要針對不同階段(預(yù)訓(xùn)練、后訓(xùn)練、微調(diào)、推理)的負(fù)載特點(diǎn)進(jìn)行優(yōu)化,并解決負(fù)載不均衡等問題。 此外,還需要關(guān)注 KV Cache 管理和多卡協(xié)同等關(guān)鍵技術(shù)。
6. 智算中心算力供需錯(cuò)配:系統(tǒng)軟件的補(bǔ)位作用
文章指出,目前存在智算中心國產(chǎn)算力閑置,而應(yīng)用開發(fā)者又缺乏算力的現(xiàn)象。 這凸顯了系統(tǒng)軟件的重要性,需要通過提升國產(chǎn)算力的易用性,來促進(jìn)國產(chǎn)算力的有效利用,從而推動 AI 產(chǎn)業(yè)發(fā)展。
7. 未來趨勢:系統(tǒng)軟件的全面發(fā)展和算力資源的統(tǒng)一管理
未來 1-3 年內(nèi),系統(tǒng)軟件優(yōu)化將朝著構(gòu)建完整的基礎(chǔ)軟件體系方向發(fā)展,包括編程語言、編譯器、通信庫、并行計(jì)算和編程框架等多個(gè)層面。 同時(shí),需要建立完善的算力度量標(biāo)準(zhǔn)和統(tǒng)一的算力管理平臺,讓算力像水電一樣成為便捷的基礎(chǔ)設(shè)施。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺