vllm部署 DeepSeek-R1:70B
时间: 2025-03-05 16:38:14 浏览: 191
### 如何使用 vLLM 部署 DeepSeek-R1 70B 模型
对于具有较大规模的模型如 DeepSeek-R1 70B 的部署,考虑到其庞大的参数量以及所需的计算资源,建议采用分布式推理的方式来进行部署。基于此需求,在准备阶段需确认硬件环境满足条件,并按照特定配置来设置软件环境。
#### 准备工作
确保服务器配备足够的 GPU 资源支持大模型加载与运行。由于该模型体积庞大,推荐至少拥有多个具备高显存容量(例如 A100 或 H100 类型)GPU 卡的工作站或集群节点用于加速运算过程[^1]。
#### 下载并安装依赖项
通过 `pip` 安装必要的 Python 库以构建适合于处理大规模预训练语言模型的服务端应用:
```bash
pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu118
pip install transformers sentencepiece
```
#### 获取模型权重文件
访问 Ollama 平台上的 Models 页面,定位到目标版本即 DeepSeek-R1 70B 。下载对应架构下的权重文件至本地存储路径 `/app/deepseek/DeepSeek-R1-70B` 中以便后续调用。
#### 补充模型元数据
针对已获取但缺少必要描述信息的情况,可利用 ModelScope 工具完成补充操作:
```bash
modelscope download --model deepseek-ai/DeepSeek-R1-70B --exclude *.safetensors --local_dir /app/deepseek/DeepSeek-R1-70B
```
#### 启动量化推理服务
为了提高效率降低内存占用率,可以通过指定 FP8 量化方式启动服务实例;同时调整张量切分数量适应多卡协同作业场景:
```bash
vllm serve /app/deepseek/DeepSeek-R1-70B \
--host 0.0.0.0 --port 6006 \
--quantization="fp8" \
--tensor-parallel-size 4 \
--max_model_len 32384 \
--served-model-name deepseek-ai/deepseek-r1:70b
```
上述命令中设置了主机地址为任意 IP 可达(`0.0.0.0`)、监听端口设为 `6006` ,启用了FP8精度优化选项[--quantization="fp8"],指定了四个进程间通信单元参与任务分配[--tensor-parallel-size 4],限定了单次请求最大长度不超过 `32,384` tokens [--max_model_len 32384],最后给定了一个易于识别的服务名称[--served-model-name deepseek-ai/deepseek-r1:70b][^2]。
阅读全文
相关推荐


















