vLLM 代码示例：模型推理、服务部署及API调用

最新推荐文章于 2025-06-05 16:29:59 发布

学亮编程手记

最新推荐文章于 2025-06-05 16:29:59 发布

阅读量1.1k

点赞数 3

CC 4.0 BY-SA版权

分类专栏： chatgpt 文章标签： llm

本文链接：https://blog.csdn.net/a772304419/article/details/146283714

chatgpt 专栏收录该内容

195 篇文章

订阅专栏

1. 高性能批量推理

from vllm import LLM, SamplingParams

# 初始化多GPU并行模型（假设可用4张A100）
llm = LLM(model="meta-llama/Llama-3-70b-instruct", tensor_parallel_size=4)

# 批量处理提示（支持高并发）
prompts = [
    "解释量子计算的量子比特原理。",
    "用Python实现快速排序算法。",
    "翻译以下句子为英文：人工智能正在改变世界。"
]

# 配置低延迟参数（温度=0.3保证稳定性）
sampling_params = SamplingParams(temperature=0.3, max_tokens=256)

# 批量生成（吞吐量≥5000 tokens/s）
outputs = llm.generate(prompts, sampling_params)

# 输出结果
for i, output in enumerate(outputs):
    print(f"Prompt {i+1}:\n{output.outputs[0].text}\n{'-'*50}")

2. 生产级API服务部署

# 启动分布式API服务（需8卡A100集群）
python -m vllm.entrypoints.api_server \
    --model Qwen/Qwen1.5-72B-Chat \
    --tensor-parallel-size 8 \
    --max-num-batched-tokens 16000 \  # 高吞吐优化
    --port 8000 \
    --host 0.0.0.0 \                 # 允许外部访问
    --enforce-eager                   # 减少显存碎片

3. 企业级API调用（带负载均衡）

import requests
from requests.adapters import HTTPAdapter
from urllib3.util.retry import Retry

# 配置重试策略（应对高并发场景）
retry_strategy = Retry(
    total=3,
    backoff_factor=1,
    status_forcelist=[502, 503]
)
session = requests.Session()
session.mount("http://", HTTPAdapter(max_retries=retry_strategy))

# 请求参数（JSON序列化优化）
payload = {
    "prompt": "生成企业级数据中台架构方案。",
    "temperature": 0.5,
    "top_p": 0.9,
    "max_tokens": 1024,
    "stream": True  # 支持流式输出
}

# 发送至负载均衡端点
response = session.post(
    "http://api.your-company.com/v1/completions",
    json=payload,
    headers={"Authorization": "Bearer YOUR_API_KEY"},
    timeout=30  # 生产环境超时设置
)

# 流式处理结果
if response.status_code == 200:
    for chunk in response.iter_lines():
        if chunk:
            print(chunk.decode("utf-8"))
else:
    print(f"API Error: {response.text}")

关键配置说明

参数	生产环境建议值	作用
`tensor_parallel_size`	GPU数量	实现多卡并行推理
`max-num-batched-tokens`	≥10000	提升吞吐量的核心参数
`enforce-eager`	开启	避免显存碎片导致OOM
`stream`	True	流式输出降低端到端延迟