4090单卡使用vllm
时间: 2025-05-16 19:03:25 浏览: 34
### 使用 vLLM 在 NVIDIA GeForce RTX 4090 单 GPU 上运行
vLLM 是一种高效的大规模语言模型推理引擎,旨在优化大模型的部署性能。要在配备 NVIDIA GeForce RTX 4090 的单 GPU 设置上使用 vLLM,可以按照以下方法配置环境并启动服务。
#### 环境准备
确保系统已安装必要的依赖项和驱动程序。RTX 4090 支持 CUDA 和 cuBLAS 加速功能,因此需要正确安装这些工具链版本以匹配硬件支持的能力[^3]。
```bash
# 安装最新的 NVIDIA 驱动程序 (建议通过官方文档确认最新版本)
sudo apt update && sudo apt install nvidia-driver-<latest_version>
# 安装 CUDA Toolkit 及其相关库
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.0-1_all.deb
sudo dpkg -i cuda-keyring_1.0-1_all.deb
sudo apt-get update
sudo apt-get -y install cuda
```
#### 安装 vLLM 库及其依赖项
vLLM 提供了 Python API 接口用于加载预训练的语言模型,并允许开发者自定义推理参数。以下是安装步骤:
```bash
pip install --upgrade pip setuptools wheel
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install git+https://github.com/vllm-project/vllm.git@main
```
上述命令会下载 PyTorch 并编译针对 CUDA 11.8 的扩展模块,同时也会拉取 vLLM 的源码仓库并完成本地构建过程[^4]。
#### 启动 vLLM 服务
一旦所有软件包都成功安装完毕,则可以通过脚本初始化一个基于指定 LLM 模型的服务端实例。下面是一个简单的例子展示如何利用 Hugging Face Model Hub 中公开可用的一个基础 Transformer 架构作为起点来测试整个流程是否正常运作。
```python
from vllm import LLM, SamplingParams
# 初始化大型语言模型对象
model_path = "/path/to/local/model/or/hf/repo/id"
llm = LLM(model=model_path)
# 设定采样策略
sampling_params = SamplingParams(temperature=0.8, top_p=0.95)
# 输入提示文本进行生成任务处理
prompts = ["Tell me about artificial intelligence."]
outputs = llm.generate(prompts=prompts, sampling_params=sampling_params)
for output in outputs:
prompt = output.prompt
generated_text = output.outputs[0].text
print(f"Prompt: {prompt}\nGenerated Text: {generated_text}")
```
此代码片段展示了如何加载特定路径下的权重文件或者远程存储库 ID 来创建 `LLM` 实例;接着定义了一些随机化程度较高的抽样超参以便让输出更加多样化最后调用了 `.generate()` 方法传入一组待预测字符串列表从而获得对应的延续部分[^5]。
---
阅读全文
相关推荐


















