Windows 上docker安装 vLLM
时间: 2025-06-20 21:11:19 浏览: 24
### 在Windows系统上通过Docker安装和配置vLLM
在Windows系统上运行vLLM需要确保满足以下条件:安装Docker Desktop并启用对NVIDIA GPU的支持(如果使用的是NVIDIA显卡)。以下是具体的操作说明。
#### 1. 安装Docker Desktop
首先,确保已安装Docker Desktop。可以从[Docker官网](https://www.docker.com/products/docker-desktop/)下载适用于Windows的版本。安装时,请确保选择“Enable WSL 2”选项,并完成安装过程[^1]。
#### 2. 配置NVIDIA GPU支持
对于使用NVIDIA显卡的用户,需要安装NVIDIA Container Toolkit以使Docker能够访问GPU资源。可以通过以下步骤完成配置:
- 确保系统中已安装NVIDIA驱动程序。
- 在Docker Desktop设置中,启用“Use the WSL 2 based engine”选项。
- 在Docker Desktop的“Resources” -> “WSL Integration”中,确保启用了WSL发行版。
- 在Docker Desktop的“GPU”设置中,勾选“Enable NVIDIA GPU support”[^2]。
#### 3. 拉取vLLM镜像
打开PowerShell或命令提示符,执行以下命令以拉取vLLM的官方镜像:
```bash
docker pull vllm/vllm-openai:latest
```
#### 4. 运行vLLM容器
根据引用内容[^1],可以使用以下命令启动vLLM容器。此命令适用于具有4G显存的GPU环境,并加载Qwen模型:
```bash
docker run --name LocalvLLM_qwen1.5B_Int4 --runtime nvidia --gpus all -v D:/vLLM/.cache/huggingface:/root/.cache/huggingface --env "HUGGING_FACE_HUB_TOKEN=changeme" --env "HUGGINGFACE_CO_URL_HOME=https://hf-mirror.com/" --env "_HF_DEFAULT_ENDPOINT=https://hf-mirror.com" --env "HF_ENDPOINT=https://hf-mirror.com" -p 8000:8000 --ipc=host vllm/vllm-openai:latest --model Qwen/Qwen2.5-Coder-1.5B-Instruct-GPTQ-Int4 --gpu-memory-utilization=1 --max-model-len 4096
```
此命令的关键参数解释如下:
- `--runtime nvidia`: 启用NVIDIA运行时支持。
- `--gpus all`: 使用所有可用的GPU。
- `-v D:/vLLM/.cache/huggingface:/root/.cache/huggingface`: 将本地缓存目录挂载到容器内。
- `-p 8000:8000`: 将容器的8000端口映射到主机的8000端口。
- `--gpu-memory-utilization=1`: 设置GPU内存利用率。
- `--max-model-len 4096`: 设置模型最大输入长度。
#### 5. 测试vLLM服务
启动容器后,可以通过浏览器访问`http://localhost:8000/docs`以查看API文档并测试模型功能。
### 注意事项
- 如果显存不足,可能需要调整`--gpu-memory-utilization`参数以优化内存使用。
- 对于更大规模的模型(如DeepSeek-7B),需要更高的显存支持。例如,引用中提到的4090显卡(24GB显存)可以运行7B模型,但14B模型需要进一步优化或更强大的硬件支持[^2]。
阅读全文
相关推荐

















