昇騰 910B 部署滿血 DeepSeek-R1不完全避坑指南
昇騰 910B 部署滿血 DeepSeek-R1.
原標(biāo)題:昇騰 910B 部署滿血 DeepSeek-R1不完全避坑指南
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):3623字
智猩猩DeepSeek大模型R1部署實戰(zhàn)經(jīng)驗分享
本文總結(jié)了作者團隊在昇騰910B平臺部署DeepSeek R1大模型的經(jīng)驗,包括總體方案、部署過程、踩坑指南以及未解問題等方面,為其他開發(fā)者提供參考。
1. 部署背景與總體方案
作者團隊在春節(jié)后決定在910B 16卡訓(xùn)練機器上部署DeepSeek R1模型。由于R1模型權(quán)重為FP8格式,而昇騰卡不支持FP8,需要將其轉(zhuǎn)換為BF16格式。這導(dǎo)致模型權(quán)重接近1.4T,需要兩臺機器共32張昇騰910B卡才能滿足需求。部署基于MindIE框架,并利用華為提供的教程和軟件。
2. 部署過程與效果
團隊在一天內(nèi)成功啟動服務(wù)并收到R1模型的回復(fù),響應(yīng)速度符合預(yù)期。雖然過程相對順利,但仍遇到一些挑戰(zhàn),將在后續(xù)章節(jié)詳細(xì)說明。
3. 部署踩坑指南
本節(jié)總結(jié)了部署過程中遇到的問題及解決方案,主要圍繞華為提供的部署文檔展開:
- 權(quán)重轉(zhuǎn)換問題: R1模型的權(quán)重轉(zhuǎn)換腳本位于V3項目中,且需要支持FP8的NVIDIA設(shè)備才能運行。如果只有低端支持FP8的硬件,則必須使用該腳本轉(zhuǎn)換模型;NPU路線可能更順利。無論GPU還是NPU方案,其他文件都需要手工復(fù)制。
- 鏡像問題: 文檔提供的鏡像可能是arm平臺的,x86用戶需要切換到手工安裝軟件/構(gòu)建鏡像的路線。
- 軟件安裝問題: 昇騰相關(guān)的特定POC軟件需要聯(lián)系華為獲取,并按照步驟完整安裝,避免遺漏。
- 權(quán)限問題: 容器環(huán)境下,owner和group需要設(shè)置為root:root。
- rank_table_file格式問題: 建議使用程序生成,避免手工編輯錯誤,簡單類型字段應(yīng)為str類型。
- 卡編號和IP信息: 需要聯(lián)系SRE獲取卡IP等硬件信息。
- server_id問題: 主機IP和容器IP都可以使用,該字段可能不重要。
- config.json配置問題: 需開啟多機推理,并正確設(shè)置ipAddress和managementIpAddress。
- mindie-service服務(wù)調(diào)試問題: 服務(wù)拉起失敗時,通常不會顯示錯誤信息。需要檢查日志目錄($HOME/mindie)查找原因,例如缺少pip包。
4. 未解問題
1.4T的模型復(fù)制和加載耗時較長,模型復(fù)制需要十幾分鐘,模型加載需要一個小時以上。這部分有很大的優(yōu)化空間,需要依賴華為提供解決方案。
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術(shù)文章、論文成果與產(chǎn)品信息。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...