完整的671B MoE DeepSeek R1怎么塞進(jìn)本地化部署?詳盡教程大放送!
能在單臺 Mac Studio 上運(yùn)行!
原標(biāo)題:完整的671B MoE DeepSeek R1怎么塞進(jìn)本地化部署?詳盡教程大放送!
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):10445字
DeepSeek R1 671B 模型本地部署簡明教程
本文介紹了如何在本地部署 DeepSeek R1 671B 全量模型,并重點(diǎn)闡述了如何利用 Unsloth AI 提供的動態(tài)量化版本,大幅降低模型體積,從而在消費(fèi)級硬件上運(yùn)行。
1. 模型選擇與壓縮
原版 DeepSeek R1 671B 模型文件高達(dá) 720GB,難以本地部署。Unsloth AI 提供了動態(tài)量化版本,通過對關(guān)鍵層進(jìn)行高質(zhì)量量化,對非關(guān)鍵層進(jìn)行低比特量化,將模型壓縮至 131GB-212GB。作者推薦了兩種量化版本:DeepSeek-R1-UD-IQ1_M (1.73-bit,158GB) 和 DeepSeek-R1-Q4_K_M (4-bit,404GB),用戶可根據(jù)硬件條件選擇。
2. 硬件需求與運(yùn)行環(huán)境
部署大模型主要受限于內(nèi)存和顯存。DeepSeek-R1-UD-IQ1_M 需要至少 200GB 內(nèi)存+顯存,DeepSeek-R1-Q4_K_M 需要至少 500GB。作者使用四路 RTX 4090 和四通道 DDR5 內(nèi)存的工作站進(jìn)行測試,短文本生成速度分別為 7-8 token/秒和 2-4 token/秒。文章也列舉了更具性價比的選項,如 Mac Studio (192GB 統(tǒng)一內(nèi)存) 或配備多張 80GB 顯存 GPU 的服務(wù)器/云服務(wù)器。
3. 部署步驟
本文詳細(xì)介紹了在 Linux 環(huán)境下使用 ollama 部署模型的步驟:
- 從 HuggingFace 下載模型的 .gguf 文件并合并。
- 安裝 ollama。
- 創(chuàng)建 Modelfile 文件,指定模型路徑、GPU 使用數(shù)量 (num_gpu) 和上下文窗口大小 (num_ctx) 等參數(shù)。
- 使用 ollama create 命令創(chuàng)建模型。
- 使用 ollama run 命令運(yùn)行模型,并使用 –verbose 參數(shù)查看推理速度。
- (可選) 安裝 Open WebUI 建立網(wǎng)頁界面。
4. 實測結(jié)果與觀察
作者進(jìn)行了初步測試,發(fā)現(xiàn):
- 1.73-bit 和 4-bit 版本在經(jīng)典任務(wù)中表現(xiàn)良好。
- 全量模型顯著優(yōu)于蒸餾版模型。
- 4-bit 版本比 1.73-bit 版本更 “保守”,對“攻擊性”提示的回應(yīng)更謹(jǐn)慎。
- 1.73-bit 版本偶爾生成格式混亂的內(nèi)容。
- CPU 利用率極高,GPU 利用率低,說明性能瓶頸在于 CPU 和內(nèi)存帶寬。
5. 結(jié)論與建議
作者建議在消費(fèi)級硬件上使用 1.73-bit 版本進(jìn)行短文本生成等輕量級任務(wù),避免長文本和多輪對話。 文章最后鼓勵讀者在評論區(qū)分享部署經(jīng)驗和問題。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺