能在單臺 Mac Studio 上運行!
原標題:完整的671B MoE DeepSeek R1怎么塞進本地化部署?詳盡教程大放送!
文章來源:機器之心
內容字數:10445字
DeepSeek R1 671B 模型本地部署簡明教程
本文介紹了如何在本地部署 DeepSeek R1 671B 全量模型,并重點闡述了如何利用 Unsloth AI 提供的動態量化版本,大幅降低模型體積,從而在消費級硬件上運行。
1. 模型選擇與壓縮
原版 DeepSeek R1 671B 模型文件高達 720GB,難以本地部署。Unsloth AI 提供了動態量化版本,通過對關鍵層進行高質量量化,對非關鍵層進行低比特量化,將模型壓縮至 131GB-212GB。作者推薦了兩種量化版本:DeepSeek-R1-UD-IQ1_M (1.73-bit,158GB) 和 DeepSeek-R1-Q4_K_M (4-bit,404GB),用戶可根據硬件條件選擇。
2. 硬件需求與運行環境
部署大模型主要受限于內存和顯存。DeepSeek-R1-UD-IQ1_M 需要至少 200GB 內存+顯存,DeepSeek-R1-Q4_K_M 需要至少 500GB。作者使用四路 RTX 4090 和四通道 DDR5 內存的工作站進行測試,短文本生成速度分別為 7-8 token/秒和 2-4 token/秒。文章也列舉了更具性價比的選項,如 Mac Studio (192GB 統一內存) 或配備多張 80GB 顯存 GPU 的服務器/云服務器。
3. 部署步驟
本文詳細介紹了在 Linux 環境下使用 ollama 部署模型的步驟:
- 從 HuggingFace 下載模型的 .gguf 文件并合并。
- 安裝 ollama。
- 創建 Modelfile 文件,指定模型路徑、GPU 使用數量 (num_gpu) 和上下文窗口大小 (num_ctx) 等參數。
- 使用 ollama create 命令創建模型。
- 使用 ollama run 命令運行模型,并使用 –verbose 參數查看推理速度。
- (可選) 安裝 Open WebUI 建立網頁界面。
4. 實測結果與觀察
作者進行了初步測試,發現:
- 1.73-bit 和 4-bit 版本在經典任務中表現良好。
- 全量模型顯著優于蒸餾版模型。
- 4-bit 版本比 1.73-bit 版本更 “保守”,對“攻擊性”提示的回應更謹慎。
- 1.73-bit 版本偶爾生成格式混亂的內容。
- CPU 利用率極高,GPU 利用率低,說明性能瓶頸在于 CPU 和內存帶寬。
5. 結論與建議
作者建議在消費級硬件上使用 1.73-bit 版本進行短文本生成等輕量級任務,避免長文本和多輪對話。 文章最后鼓勵讀者在評論區分享部署經驗和問題。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...