
vLLM
文章平均质量分 62
HyperAI超神经
链接人工智能新场景
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【vLLM 学习】Disaggregated Prefill Lmcache
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。原创 2025-06-18 13:36:10 · 63 阅读 · 0 评论 -
【vLLM 学习】Data Parallel
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →https://vllm.hyper.ai/原创 2025-06-12 10:16:41 · 131 阅读 · 0 评论 -
【vLLM 学习】Cpu Offload Lmcache
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。原创 2025-06-06 20:25:28 · 248 阅读 · 0 评论 -
【vLLM 学习】Chat With Tools
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →https://vllm.hyper.ai/原创 2025-05-28 10:46:21 · 192 阅读 · 0 评论 -
【vLLM 学习】基础教程
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →https://vllm.hyper.ai/原创 2025-05-14 19:16:52 · 983 阅读 · 0 评论 -
vLLM 实战教程汇总,从环境配置到大模型部署,中文文档追踪重磅更新
10 个实用教程与模型案例快速掌握 vLLM原创 2025-05-09 16:03:29 · 977 阅读 · 0 评论 -
【vLLM 学习】Audio Language
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。源码 examples/offline_inference/audio_language.py。*在线运行 vLLM 入门教程:零基础分步指南。更多 vLLM 中文文档及教程可访问 →。原创 2025-05-09 17:42:06 · 203 阅读 · 0 评论 -
【vLLM 学习】CPU 离线处理
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →。原创 2025-04-27 17:20:38 · 268 阅读 · 0 评论 -
【vLLM 学习】Aqlm 示例
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →。原创 2025-04-18 17:39:20 · 321 阅读 · 0 评论 -
【vLLM 学习】API 客户端
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →。原创 2025-04-11 18:41:26 · 312 阅读 · 0 评论 -
【vLLM 学习】调试技巧
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →。原创 2025-04-03 20:26:49 · 1113 阅读 · 0 评论 -
【vLLM 学习】快速入门
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →在继续进行本指南之前,请务必完成。默认情况下,vLLM 从下载模型。如果您想在以下示例中使用。原创 2025-03-28 19:28:43 · 1230 阅读 · 0 评论 -
【vLLM 学习】使用 XPU 安装
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →vLLM 最初在 Intel GPU 平台上支持基本模型推理和服务。原创 2025-03-21 14:48:06 · 390 阅读 · 0 评论 -
【vLLM 学习】使用 TPU 安装
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →vLLM 使用 PyTorch XLA 支持 Google Cloud TPU。原创 2025-03-14 16:40:36 · 581 阅读 · 0 评论 -
【vLLM 教程】使用 TPU 安装
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →vLLM 使用 PyTorch XLA 支持 Google Cloud TPU。原创 2025-03-09 23:16:37 · 490 阅读 · 0 评论 -
【vLLM 学习】使用 Neuron 安装
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →从 vLLM 0.3.3 版本起,支持在带有 Neuron SDK 的 AWS Trainium/Inferentia 上进行模型推理和服务。目前 Neuron SDK 不支持分页注意力 (Paged Attention),但 Transformers-neuronx 支持简单的连续批处理。Neuron SDK 目前支持的数据类型为 FP16 和 BF16。原创 2025-02-28 15:47:38 · 640 阅读 · 0 评论 -
【vLLM 学习】使用 CPU 安装
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →vLLM 最初支持在 x86 CPU 平台上的基本模型推理和服务,数据类型为 FP32 和 BF16。原创 2025-02-07 14:42:04 · 2647 阅读 · 0 评论 -
【vLLM 学习】使用 OpenVINO 安装
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →由 OpenVINO 驱动的 vLLM 支持来自 vLLM 支持的模型列表 <…/models/supported_models> 中的所有 LLM 模型,并且可以在所有 x86-64 CPU 上(至少需要 AVX2 支持)进行最佳的模型服务。原创 2025-01-24 15:53:09 · 829 阅读 · 0 评论 -
【vLLM 学习】使用 ROCm 安装
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →vLLM 支持采用 ROCm 6.1 的 AMD GPU。原创 2025-01-17 16:43:31 · 1506 阅读 · 0 评论 -
【vLLM 学习】安装
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →https://vllm.hyper.ai/vLLM 是一个 Python 库,包含预编译的 C++ 和 CUDA (12.1) 二进制文件。原创 2025-01-10 14:45:04 · 2255 阅读 · 0 评论 -
【vLLM 学习】欢迎来到 vLLM!
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →vLLM 是一个快速且易于使用的库,专为大型语言模型 (LLM) 的推理和部署而设计。vLLM 的灵活性和易用性体现在以下方面:无缝集成流行的 HuggingFace 模型具有高吞吐量服务以及各种解码算法,包括并行采样、束搜索等支持张量并行和流水线并行的分布式推理流式输出提供与 OpenAI 兼容的 API 服务器。原创 2025-01-03 18:29:15 · 1252 阅读 · 0 评论