ubuntu24.04安装vllm
时间: 2025-04-10 18:58:34 浏览: 153
<think>好的,我现在需要在Ubuntu 24.04上安装VLLM框架。首先,我得了解VLLM是什么,以及它的安装依赖。根据用户提供的参考信息,特别是引用[3]中的Docker命令和引用[4]中提到的部署DeepSeek R1 14B的方案,VLLM可能是一个用于大型语言模型推理的高效库,需要GPU支持。
首先,我需要确认系统环境。用户提到Ubuntu 24.04,可能已经安装了NVIDIA驱动,因为引用[2]中提到了NVIDIA cuBLAS的性能数据。安装VLLM可能需要CUDA工具包,所以第一步应该是检查CUDA和cuDNN的安装情况。如果系统没有安装,需要先安装这些依赖。
接下来,根据引用[3]中的Docker命令,用户可能使用了容器化部署,但问题是如何直接在Ubuntu上安装。可能需要使用Python的pip来安装vllm包。不过,VLLM的安装可能有特定的版本要求,比如需要Python 3.8以上,PyTorch的某个版本,以及相应的CUDA版本支持。
另外,引用[4]中的健康检查脚本使用了Ollama的API,但用户的问题是关于VLLM的安装,可能需要关注VLLM的官方文档。根据经验,VLLM通常需要安装vllm包,可能还需要安装特定的CUDA扩展或者依赖库,比如nvidia-cublas-cu12等。
可能的步骤包括:
1. 更新系统并安装必要的依赖,如Python3、pip、CUDA等。
2. 创建Python虚拟环境以隔离依赖。
3. 使用pip安装vllm,可能需要指定版本或添加额外的索引。
4. 验证安装是否成功,运行示例代码。
此外,引用[3]中的Docker命令涉及到了设备权限和卷挂载,这可能意味着在裸机安装时需要配置相应的设备访问权限,比如NVIDIA的GPU设备。可能需要安装nvidia-container-toolkit或者配置Docker环境,但如果用户不想使用容器,可能需要直接安装NVIDIA驱动和相关库。
在检查过程中,需要注意Ubuntu 24.04的软件源是否包含所需的软件包,或者是否需要添加第三方PPA。例如,安装CUDA可能需要从NVIDIA官网下载.run文件或通过APT仓库安装。
另外,引用[2]中提到不同发行版的数学库优化,Ubuntu 24.04使用的是NVIDIA cuBLAS,这可能对VLLM的性能有影响,因此在安装时需要确保CUDA正确配置,并且VLLM能够调用这些库。
可能的错误点包括:CUDA版本不兼容、Python环境冲突、缺少系统依赖库等。需要逐步检查每个步骤的输出,确保没有报错。例如,安装vllm时可能会提示需要安装CMake或Ninja等构建工具,因此需要提前安装这些依赖。
总结下来,安装步骤可能如下:
- 安装NVIDIA驱动和CUDA工具包
- 安装Python虚拟环境
- 安装VLLM via pip
- 测试安装
需要查阅VLLM的官方安装指南,确认最新的安装命令和依赖要求。例如,VLLM官方可能推荐使用pip install vllm,或者需要从源码编译,特别是如果使用特定版本的CUDA。
最后,根据用户提供的引用,可能需要考虑使用Docker来简化安装,如引用[3]中的命令,但用户明确询问的是在Ubuntu上安装,而不是使用Docker,所以需要提供裸机安装的步骤。</think>### 在 Ubuntu 24.04 上安装 VLLM 框架的步骤
#### 1. 安装系统依赖和 NVIDIA 驱动
确保系统已安装 NVIDIA 驱动和 CUDA 工具包(VLLM 需要 CUDA 11.8 或更高版本):
```bash
# 检查 NVIDIA 驱动是否安装
nvidia-smi
# 若未安装,添加官方驱动仓库并安装(以 535 驱动为例)
sudo apt update
sudo apt install ubuntu-drivers-common
sudo ubuntu-drivers autoinstall
sudo reboot
# 安装 CUDA Toolkit(以 CUDA 12.1 为例)
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-ubuntu2404.pin
sudo mv cuda-ubuntu2404.pin /etc/apt/preferences.d/cuda-repository-pin-600
wget https://developer.download.nvidia.com/compute/cuda/12.1.0/local_installers/cuda-repo-ubuntu2404-12-1-local_12.1.0-530.30.02-1_amd64.deb
sudo dpkg -i cuda-repo-ubuntu2404-12-1-local_12.1.0-530.30.02-1_amd64.deb
sudo apt update
sudo apt install cuda-toolkit-12-1
```
#### 2. 配置 Python 虚拟环境
```bash
# 安装 Python 3.10 和虚拟环境工具
sudo apt install python3.10-venv python3-pip
# 创建并激活虚拟环境
python3 -m venv vllm-env
source vllm-env/bin/activate
```
#### 3. 安装 VLLM 及其依赖
```bash
# 安装 PyTorch 和 VLLM(需匹配 CUDA 版本)
pip install torch==2.3.0+cu121 --extra-index-url https://download.pytorch.org/whl/cu121
pip install vllm
# 验证安装
python -c "from vllm import LLM; print('VLLM 安装成功!')"
```
#### 4. 测试 GPU 加速推理
```python
from vllm import LLM, SamplingParams
llm = LLM(model="facebook/opt-125m")
sampling_params = SamplingParams(temperature=0.8, top_p=0.95, max_tokens=64)
outputs = llm.generate("Hello, my name is", sampling_params)
print(outputs[0].outputs[0].text)
```
#### 5. 可选:Docker 部署(参考引用[3])
若需容器化部署,可使用官方镜像:
```bash
docker run --gpus all -p 8000:8000 --rm -itvllm/vllm-openai:latest
```
---
### 关键配置说明
1. **CUDA 版本匹配**:VLLM 依赖 CUDA 12.1+,需与 PyTorch 的 CUDA 版本一致[^2]
2. **性能优化**:Ubuntu 24.04 默认使用 NVIDIA cuBLAS,可提升推理速度[^2]
3. **健康监控**:可参考引用[4]编写脚本监控 GPU 利用率
---
阅读全文
相关推荐







