1.介绍
1.1 vllm
vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架,旨在极大地提升实时场景下的语言模型服务的吞吐与内存使用效率。vLLM是一个快速且易于使用的库,用于 LLM 推理和服务,可以和HuggingFace 无缝集成。vLLM利用了全新的注意力算法「PagedAttention」,有效地管理注意力键和值。
vLLM 的特点和优势:
采用了 PagedAttention,可以有效管理 attention 的 keys、values。
吞吐量最多可以达到 huggingface 实现的24倍,文本生成推理(TGI)高出3.5倍,并且不需要对模型结构进行任何的改变。
如果想使用更简单的方式部署DeepSeek-R1-Distill-Qwen-1.5B,可以看这篇文章:
使用ollama部署DeepSeek-R1-Distill-Qwen-1.5B-CSDN博客
1.2 Deepseek
DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司。推出国产大模型DeepSeek-V3和DeepSeek-R1。总参数量为671B,激活37B。