vllm部署大模型 linux
时间: 2025-01-11 14:40:23 浏览: 102
### 部署大型语言模型 VLLM 的步骤
#### 准备工作环境
为了确保最佳性能和兼容性,建议在一个干净的 Python 虚拟环境中操作。可以使用 Conda 创建并激活一个新的虚拟环境[^4]。
```bash
conda create -n vllm_env python=3.10 -y
conda activate vllm_env
```
#### 安装必要的软件包
安装 `vllm` 及其他所需的依赖项可以通过 pip 来完成。这一步骤会自动处理大部分依赖关系。
```bash
pip install vllm
```
#### 下载预训练模型
对于实际应用中的大规模语言模型,通常需要预先下载好相应的权重文件。可以在项目目录下创建专门用于存储模型的文件夹,并编写脚本来自动化这一过程[^3]。
```python
import os
from transformers import AutoModelForCausalLM, AutoTokenizer
def download_model(model_name, save_path='./model'):
if not os.path.exists(save_path):
os.makedirs(save_path)
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer.save_pretrained(save_path)
model.save_pretrained(save_path)
download_model('qwen2.5-coder-7b-instruct', './model')
```
#### 启动 HTTP API 服务器
配置并启动基于 OpenAI API 协议的服务端程序,指定主机地址、监听端口以及要加载的具体模型路径等参数。这里展示了如何设置多 GPU 并行计算来加速推理速度[^2]。
```bash
CUDA_VISIBLE_DEVICES=0,1 \
/root/vendor/Python3.10.12/bin/python3.10 \
-m vllm.entrypoints.openai.api_server \
--host 0.0.0.0 --port 25010 \
--served-model-name qwen2_5_coder_7b_instruct \
--model /root/qwen2.5/qwen2.5-coder-7b-instruct/ \
--tensor-parallel-size 2 --max-model-len 8096
```
上述命令中设置了两个 GPU 设备参与运算 (`CUDA_VISIBLE_DEVICES=0,1`) ,并将最大输入长度设为 8096 tokens 。同时指定了服务名称和服务所使用的具体模型位置。
---
阅读全文
相关推荐






