ubuntu运行vllm
时间: 2025-04-16 16:45:17 浏览: 64
### 安装和配置vLLM
#### 创建Python虚拟环境并激活
为了确保依赖项不会干扰其他项目,建议创建一个新的Conda环境来安装vLLM。
```bash
conda create -n vllm python==3.11
conda activate vllm
```
#### 安装vLLM库
一旦环境被激活,可以继续通过pip工具安装vLLM包:
```bash
pip install vllm
```
对于希望利用特定CPU特性(如AVX512_BF16)加速计算的情况,在编译之前应设置相应的环境变量[^3]。
#### 下载预训练模型
通常情况下,使用vLLM时还需要获取预先训练好的模型权重文件。这一步骤可能涉及从远程仓库拉取数据或将已有模型放置于指定路径下以便后续加载[^2]。
#### 启动Docker容器化应用实例
另一种方法是借助Docker镜像快速部署带有预配置软件栈的服务端点。下面命令展示了如何启动一个基于Aliyun Registry提供的官方映像构建而成的新版VLLM服务,并指定了GPU设备编号用于分布式处理任务[^1]:
```bash
docker run -d -t --gpus '"device=2,3"' \
--ipc=host \
--name vllm-12.4 \
-v /home/root/.cache/modelscope:/root/.cache/modelscope \
egs-registry.cn-hangzhou.cr.aliyuncs.com/egs/vllm:0.5.4-pytorch2.4.0-cuda12.4.1-ubuntu22.04
```
此操作会将主机上的`~/.cache/modelscope`目录挂载至容器内部相同位置,方便共享缓存资源;同时允许访问物理机上的第2号与第3号NVIDIA GPU硬件加速器。
阅读全文
相关推荐


















