昇騰 910B 部署滿血 DeepSeek-R1.
原標題:昇騰 910B 部署滿血 DeepSeek-R1不完全避坑指南
文章來源:智猩猩GenAI
內容字數:3623字
智猩猩DeepSeek大模型R1部署實戰經驗分享
本文總結了作者團隊在昇騰910B平臺部署DeepSeek R1大模型的經驗,包括總體方案、部署過程、踩坑指南以及未解問題等方面,為其他開發者提供參考。
1. 部署背景與總體方案
作者團隊在春節后決定在910B 16卡訓練機器上部署DeepSeek R1模型。由于R1模型權重為FP8格式,而昇騰卡不支持FP8,需要將其轉換為BF16格式。這導致模型權重接近1.4T,需要兩臺機器共32張昇騰910B卡才能滿足需求。部署基于MindIE框架,并利用華為提供的教程和軟件。
2. 部署過程與效果
團隊在一天內成功啟動服務并收到R1模型的回復,響應速度符合預期。雖然過程相對順利,但仍遇到一些挑戰,將在后續章節詳細說明。
3. 部署踩坑指南
本節總結了部署過程中遇到的問題及解決方案,主要圍繞華為提供的部署文檔展開:
- 權重轉換問題: R1模型的權重轉換腳本位于V3項目中,且需要支持FP8的NVIDIA設備才能運行。如果只有低端支持FP8的硬件,則必須使用該腳本轉換模型;NPU路線可能更順利。無論GPU還是NPU方案,其他文件都需要手工復制。
- 鏡像問題: 文檔提供的鏡像可能是arm平臺的,x86用戶需要切換到手工安裝軟件/構建鏡像的路線。
- 軟件安裝問題: 昇騰相關的特定POC軟件需要聯系華為獲取,并按照步驟完整安裝,避免遺漏。
- 權限問題: 容器環境下,owner和group需要設置為root:root。
- rank_table_file格式問題: 建議使用程序生成,避免手工編輯錯誤,簡單類型字段應為str類型。
- 卡編號和IP信息: 需要聯系SRE獲取卡IP等硬件信息。
- server_id問題: 主機IP和容器IP都可以使用,該字段可能不重要。
- config.json配置問題: 需開啟多機推理,并正確設置ipAddress和managementIpAddress。
- mindie-service服務調試問題: 服務拉起失敗時,通常不會顯示錯誤信息。需要檢查日志目錄($HOME/mindie)查找原因,例如缺少pip包。
4. 未解問題
1.4T的模型復制和加載耗時較長,模型復制需要十幾分鐘,模型加載需要一個小時以上。這部分有很大的優化空間,需要依賴華為提供解決方案。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...