vllm使用本地模型
时间: 2025-02-01 18:57:43 浏览: 160
### 如何使用本地模型运行 vLLM 的详细教程和配置说明
#### 准备工作
为了成功在本地环境中运行基于 `vLLM` 的应用,需先完成必要的准备工作。这包括但不限于安装操作系统 Ubuntu 20.04 或更高版本以及 Python 环境的搭建[^3]。
#### 安装依赖项
确保已安装所有必需的依赖包,可以通过执行如下命令来实现:
```bash
sudo apt-y python3-pip git cmake build-essential libssl-dev libffi-dev python3-dev
pip3 install --upgrade pip setuptools wheel
```
#### 获取并编译 vLLM 源码
访问官方 GitHub 页面获取最新版源代码,并按照给定指示进行编译操作。通常情况下,此过程涉及克隆仓库、切换到目标分支/标签页及调用构建脚本等步骤。
```bash
git clone https://github.com/vllm-project/vllm.git
cd vllm
make all
```
#### 配置环境变量
根据实际需求调整 `.bashrc` 文件内的路径设置,以便于后续加载自定义模块或库文件时能够顺利找到相应位置。
```bash
echo 'export VLLM_HOME=/path/to/vllm' >> ~/.bashrc
source ~/.bashrc
```
#### 加载预训练模型
支持两种方式引入外部预训练权重:一是利用内置接口直接拉取来自 Hugging Face Hub 上托管的数据集;二是手动上传事先下载好的二进制文件至指定目录内[^4]。
对于前者而言,仅需简单几行代码即可完成整个流程:
```python
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name_or_path = "facebook/opt-125m"
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForCausalLM.from_pretrained(model_name_or_path)
```
而后者则可能涉及到解压压缩包、修改配置参数等一系列额外处理动作。
#### 启动服务端口监听
最后一步便是启动 HTTP API Server,对外暴露 RESTful 接口供客户端发起请求交互。默认情况下会绑定 localhost:8080 地址端口组合,当然也可以依据个人喜好更改成其他可用选项。
```bash
python3 serve.py --host 0.0.0.0 --port 8080
```
此时便可通过浏览器或其他工具测试基本功能是否正常运作了!
阅读全文
相关推荐


















