vllm部署记录

andeyeluguo

已于 2024-07-26 17:11:14 修改

阅读量1k

点赞数

CC 4.0 BY-SA版权

分类专栏： AI笔记文章标签： elasticsearch 大数据搜索引擎

于 2024-07-26 17:10:53 首次发布

本文链接：https://blog.csdn.net/andeyeluguo/article/details/140717014

AI笔记专栏收录该内容

125 篇文章 ¥59.90 ¥99.00

订阅专栏

1. pip安装

pip install vllm

下载模型在huggingface.co

注意在modelscope上的这个opt-125m好像不行了，我git不下来报错

启动服务

vllm serve opt-125m --model opt-125m --port 8888

第一个opt-125m是名字，可以在vllm支持的模型中查到，第二个是模型存放文件夹及其路径
也可以

python -m vllm.entrypoints.openai.api_server --model=opt-125m --port 8888

客户端

curl http://localhost:8888/v1/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "opt-125m",
        "prompt": "San Francisco is a",
        "max_tokens": 7,
        "temperature": 0
    }'

或者从

git clone https://www.modelscope.cn/OpenBMB/miniCPM-bf16.git

然后启动

python -m vllm.entrypoints.openai.api_server --mod

了解本专栏

订阅专栏解锁全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

andeyeluguo

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

订阅专栏

vllm serve 使用方法

NLP与推荐算法

03-27

1210

是 vLLM 提供的命令行工具，用于快速部署兼容 OpenAI API 的 HTTP 服务器。是 vLLM 中简洁的命令行接口，用于快速启动 API 服务。指定模型路径或 Hugging Face Hub 模型名称（如。信任远程代码（加载需要自定义代码的模型，如某些社区模型）。张量并行 GPU 数量（多卡推理时设置为 GPU 数量）。SSL 私钥文件路径（启用 HTTPS）。确认模型路径正确（本地模型需绝对路径）禁用性能统计日志（减少日志输出）。禁用请求日志（减少日志输出）。GPU 显存利用率（默认。

通义Qwen实战(2): vllm框架部署实战

@bangbang的博客

03-27

433

参与评论您还未登录，请先登录后发表或查看评论

vllm server返回404的一种可能得解决方案

先说一下，就简单地写点儿氵文，不是博客，只是我的笔记本/工具书

05-27

242

这里是我的测试脚本，你看看你的请求头里的模型名字/路径改对了吗。启动server的时候写的是相对路径，这里写成绝对路径了。我的 server 启动指令。就很奇怪，不都是直接访问。哦，原来是模型路径填错了。

vLLM Serve 命令参数详解

weixin_45921929的博客

05-13

1096

vLLM Serve 命令参数详解

Linux环境下使用vLLM部署本地大模型

剑飞的架构思维

02-07

6795

通过以上步骤，您可以在Linux环境下成功部署vLLM并运行大模型服务。在实际操作中，可能需要根据具体的vLLM版本和模型文件进行调整和优化。后续的步骤3和步骤4将依赖于该服务进行测试，因此请务必不要关闭此终端窗口。下载成功后，模型文件会保存在./model/qwen2_5-1_5b-instruct文件夹下。本课程实验环境需与微调章节保持一致，确保在GPU环境下执行模型部署操作。如果你希望在后台持续运行服务而不受终端窗口关闭的影响，可以使用这条命令。下载开源模型进行部署，暂不在此演示。

vllm server 命令大全

qq_28269995的博客

02-25

3333

vllm serve 提供了丰富的配置选项，允许用户根据需求灵活地调整模型服务的各个方面，包括模型加载、推理、并行化、日志记录等。通过合理配置这些选项，可以优化模型的性能和资源利用率。

05-09 周四 vLLM的部署和实践

不当初

05-09

2274

GitHub项目官方网站上解释了Fast、和flexible and easy to use的原因。参考链接网页描述大模型推理加速工具：vLLM描述了安装，离线推理和在线服务的简单演示比HuggingFace快24倍！伯克利LLM推理系统开源碾压SOTA，GPU砍半描述了优点，并且有很多的图。【LLM】vLLM部署与int8量化-CSDN博客。

本地部署 vllm

engchina的专栏

12-25

5182

本地部署 vllm

vllm serve 设置加载conda环境并开机自启动

keyboard专栏

11-05

1700

要在开机时进入指定的conda环境并启动此vllm服务，您可以通过以下步骤设置一个systemd服务来自动执行脚本。

Ubuntu24.04使用 vLLM 部署本地 DeepSeek 模型与开机启动

最新发布

qq_30345409的博客

05-27

889

参数会在环境中预装 pip 和 setuptools，确保基础工具可用。这个过程可能需要几分钟，因为 vLLM 包含了许多深度学习相关的依赖。安装完成后，重新加载终端环境或执行。使 UV 命令生效。

基于ACK使用vLLM部署Qwen模型推理服务

11-26

1510

本文以Qwen1.5-4B-Chat模型、GPU类型为T4和A10卡为例，演示如何在ACK中使用vLLM（Versatile Large Language Model）框架部署通义千问（Qwen）模型推理服务。是阿里云基于Transformer大语言模型研发的40亿参数模型，模型在超大规模的预训练数据（预训练数据类型多样且覆盖广泛，包括大量网络文本、专业书籍、代码等）上进行训练得到。更多模型信息，请参见。是一个高效易用的大语言模型推理服务框架，vLLM支持包括通义千问在内的多种常见大语言模型。

LLamaFactory微调效果与vllm部署效果不一致如何解决

weixin_47659945的博客

04-21

1042

一种是利用现有对话模板，直接配置一个如下的 json 文件使用。model_name 为必填项，可以是 LMDeploy 内置对话模板名（通过 lmdeploy list 可查阅），也可以是新名字。其他字段可选填。当 model_name 是内置对话模板名时，json文件中各非 null字段会覆盖原有对话模板的对应属性。而当 model_name 是新名字时，它会把将BaseChatTemplate 直接注册成新的对话模板。其具体定义可以参考BaseChatTemplate。

vllm serve DeepSeek-R1-Distill-Llama-70B 怎么能做到后台运行呢

keyboard专栏

02-10

1875

这样，你的服务会在后台运行。

vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention

maxzcl的博客

12-05

416

paper: https://arxiv.org/pdf/2309.06180.pdfrepo: GitHub - vllm-project/vllm: A high-throughput and memory-efficient inference and serving engine for LLMshighlights blog by authors: vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention | vLLM BlogLLMs

【杂记】vLLM多卡推理踩坑记录

LZXCyrus的博客

12-10

8977

仅作个人学习与记录用。主要记录vLLM在多卡推理时遇到的问题。

vLLM 用于 LLM 推理服务和客户端的访问方式 1 - openai

二分掌柜的

10-25

1795

flyfish

vLLM 部署大模型问题记录

技术分享，读书笔记，面试宝典，算法积累，应有尽有～

10-17

9884

vLLM 提供了一个官方的 Docker 镜像用于部署，这个镜像可以用来运行与 OpenAI 兼容的服务，并且在 Docker Hub 上可用，名为 vllm/vllm-openai。引擎启动参数：https://docs.vllm.ai/en/stable/models/engine_args.html。引擎启动参数：https://docs.vllm.ai/en/stable/models/engine_args.html。Llama3.2 最新支持视觉大模型，不支持音频输入。

LLMs之 PagedAttention：《vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention》翻译与解读—KV缓存技术等

头部AI社区如有邀博主AI主题演讲请私信—心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，专注，谦虚，自律，反思，成长，还算比较正能量的博主，公益免费传播…内心特别想在AI界做出一些可以推进历史进程影响力的技术(兴趣使然，有点小情怀，也有点使命感呀

06-28

3737

LLMs之 PagedAttention：《vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention》翻译与解读—KV缓存技术等目录 LLMs：《vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention》翻译与解读 Abstract Beyond State-of-the-art Performance超越最新技术水平的性能 The Secret Sauce: P

vllm 部署 deepseek

03-29

### VLLM 和 DeepSeek 模型集成方案 VLLM 是一种高效的大型语言模型推理框架，而 DeepSeek 提供了一系列高质量的大规模预训练语言模型。为了实现两者的集成并成功部署，可以考虑以下几个方面： #### 1. **环境准备** 在开始之前，需确保安装必要的依赖库以及配置好运行环境。通常情况下，推荐使用 Python 虚拟环境来管理项目所需的包版本。 ```bash pip install vllm deepspeed torch transformers ``` 上述命令会安装 `vllm` 及其相关依赖项，同时也包含了支持 DeepSpeed 的加速功能[^1]。 --- #### 2. **加载 DeepSeek 模型** DeepSeek 提供了多个变体的开源大语言模型（如 `deepseek-base`, `deepseek-lm`），这些模型可以通过 Hugging Face Transformers 加载。以下是加载模型的一个简单示例代码片段： ```python from transformers import AutoTokenizer, AutoModelForCausalLM import torch model_name = "deepseek/deepseek-xxl" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained( model_name, trust_remote_code=True, device_map="auto", # 自动分配到 GPU 或 CPU torch_dtype=torch.float16 # 使用半精度浮点数减少内存占用 ) ``` 通过设置参数 `device_map='auto'` 和 `torch_dtype=torch.float16`，可以在多设备环境中高效利用硬件资源[^4]。 --- #### 3. **集成 VLLM 进行高性能推理** VLLM 支持批量处理请求和动态调整序列长度的能力，这使得它非常适合用于生产级别的 LLM 推理服务。下面是一个简单的集成例子： ```python from vllm import LLM, SamplingParams # 初始化 VLLM 并指定模型路径 llm = LLM(model=model_name) # 设置采样参数 (可以根据需求自定义温度、top-p 等超参) sampling_params = SamplingParams(temperature=0.8, top_p=0.95) # 输入提示文本 prompts = ["Tell me about artificial intelligence.", "Explain quantum computing."] # 执行推理 outputs = llm.generate(prompts, sampling_params=sampling_params) for output in outputs: print(output.outputs[0].text) # 输出生成的结果 ``` 此部分展示了如何将 DeepSeek 模型与 VLLM 结合起来完成实际的任务推断过程。 --- #### 4. **Web API 构建** 为了让其他应用程序能够调用该集成的服务，建议创建 RESTful Web API 来暴露接口。这里可以选择 Flask 或 FastAPI 来快速搭建服务器端逻辑。以下是一段基于 FastAPI 的简化版实现： ```python from fastapi import FastAPI from pydantic import BaseModel from typing import List app = FastAPI() class PromptRequest(BaseModel): prompts: List[str] @app.post("/generate/") async def generate_text(request: PromptRequest): global llm, sampling_params outputs = llm.generate(request.prompts, sampling_params=sampling_params) results = [output.outputs[0].text for output in outputs] return {"results": results} ``` 启动这个应用之后，外部客户端就可以发送 POST 请求至 `/generate/` 地址获取响应数据。 --- #### 5. **扩展能力：结合 Elasticsearch 实现检索增强生成** 如果希望进一步提升系统的智能化水平，则可引入搜索引擎技术作为辅助手段之一。例如借助 Elasticsearch 对历史对话记录或者领域专业知识文档索引后，在每次生成前先查询相关内容提供给模型参考[^2]。 ---