使用vllm部署DeepSeek-R1-Distill-Qwen-1.5B

xuebodx0923

已于 2025-02-23 19:35:53 修改

阅读量8.4k

点赞数 37

CC 4.0 BY-SA版权

文章标签：人工智能 python AIGC

于 2025-02-02 17:22:08 首次发布

本文链接：https://blog.csdn.net/xuebodx0923/article/details/145420990

1.介绍

1.1 vllm

vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架，旨在极大地提升实时场景下的语言模型服务的吞吐与内存使用效率。vLLM是一个快速且易于使用的库，用于 LLM 推理和服务，可以和HuggingFace 无缝集成。vLLM利用了全新的注意力算法「PagedAttention」，有效地管理注意力键和值。

vLLM 的特点和优势：

采用了 PagedAttention，可以有效管理 attention 的 keys、values。

吞吐量最多可以达到 huggingface 实现的24倍，文本生成推理（TGI）高出3.5倍，并且不需要对模型结构进行任何的改变。

如果想使用更简单的方式部署DeepSeek-R1-Distill-Qwen-1.5B，可以看这篇文章：

使用ollama部署DeepSeek-R1-Distill-Qwen-1.5B-CSDN博客