vllm部署微调后的大模型
时间: 2025-05-07 19:11:34 浏览: 67
### 部署经过微调的大型语言模型 (Fine-Tuned LLMs) 使用 VLLM
VLLM 是一种高效的推理引擎,专为大规模语言模型设计,能够显著提升吞吐量并降低延迟。以下是关于如何利用 VLLM 来部署经过微调的大规模语言模型的相关说明:
#### 1. 安装依赖项
为了使用 VLLM 进行模型部署,首先需要安装必要的库和工具链。可以通过以下命令完成环境配置:
```bash
pip install vllm transformers torch
```
此过程确保了支持最新的硬件加速功能以及兼容主流框架中的预训练或微调模型[^1]。
#### 2. 加载微调后的模型权重
加载已经过特定领域数据集调整过的参数文件非常重要。通常情况下,这些权重会被保存成 Hugging Face Transformers 格式的 `.bin` 文件或者 PyTorch 的状态字典形式 (`state_dict`) 。下面是一个简单的 Python 脚本用于初始化目标架构实例并将自定义版本应用到其中:
```python
from transformers import AutoModelForCausalLM, AutoTokenizer
model_path = "path/to/your/fine_tuned_model"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path)
```
上述代码片段展示了如何通过指定路径来恢复先前存储好的定制化大模型结构及其关联词表映射关系[^2]。
#### 3. 初始化 VLLM 推理服务
一旦完成了基础设置之后,则可以创建一个新的 HTTP API 终端点以便外部客户端请求访问该服务。这里提供了一个基本的例子展示怎样启动这样一个在线预测接口:
```python
import uvicorn
from fastapi import FastAPI
from pydantic import BaseModel
from typing import List
from vllm import SamplingParams, LLM
app = FastAPI()
class Prompt(BaseModel):
prompts: List[str]
sampling_params = SamplingParams(temperature=0.8, top_p=0.95)
llm = LLM(model=model_path)
@app.post("/generate/")
async def generate(prompt_data:Prompt):
outputs = llm.generate(prompts=prompt_data.prompts,sampling_params=sampling_params)
results=[output.outputs[0].text for output in outputs]
return {"results":results}
if __name__ == "__main__":
uvicorn.run(app, host="0.0.0.0", port=8000)
```
这段脚本实现了基于 FastAPI 构建 RESTful Web Service 功能模块,并允许远程程序提交输入序列从而获得对应的生成回复。
---
####
阅读全文
相关推荐


















