使用vllm部署DeepSeek-R1-Distill-Qwen-1.5B

1.介绍

1.1 vllm

vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架,旨在极大地提升实时场景下的语言模型服务的吞吐与内存使用效率。vLLM是一个快速且易于使用的库,用于 LLM 推理和服务,可以和HuggingFace 无缝集成。vLLM利用了全新的注意力算法「PagedAttention」,有效地管理注意力键和值。

vLLM 的特点和优势:

采用了 PagedAttention,可以有效管理 attention 的 keys、values。

吞吐量最多可以达到 huggingface 实现的24倍,文本生成推理(TGI)高出3.5倍,并且不需要对模型结构进行任何的改变。

如果想使用更简单的方式部署DeepSeek-R1-Distill-Qwen-1.5B,可以看这篇文章:

使用ollama部署DeepSeek-R1-Distill-Qwen-1.5B-CSDN博客

1.2 Deepseek

DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司。推出国产大模型DeepSeek-V3和DeepSeek-R1。总参数量为671B,激活37B。

### 部署 DeepSeek-R1-Distill-Qwen-1.5B 模型 #### 准备工作环境 为了成功部署 DeepSeek-R1-Distill-Qwen-1.5B 模型,在Ubuntu服务器上需先安装必要的依赖项并配置开发环境。官方推荐使用 Ubuntu 20.04 LTS 版本作为操作系统基础[^1]。 ```bash sudo apt-get update && sudo apt-get upgrade -y ``` #### 获取源码与编译 下载瑞芯微提供的 `DeepSeek-R1-Distill-Qwen-1.5B` 官方Demo程序,并按照指示完成本地编译过程: ```bash git clone https://github.com/path_to_repo/DeepSeek-R1-Distill-Qwen-1.5B.git cd DeepSeek-R1-Distill-Qwen-1.5B/deploy cmake .. make ``` 上述命令会构建所需的二进制文件以便后续运行。 #### 编写API Server脚本 创建用于启动 API server 的 shell 脚本 `api_server.sh`,该脚本负责初始化服务端口监听以及加载预训练模型实例化所需资源[^2]。 ```bash #!/bin/bash export MODEL_PATH=/path/to/model/directory python3 /LLM/DeepSeek-R1-Distill-Qwen-1.5B/api_server.py --model_path $MODEL_PATH & echo "API Server started successfully." ``` 确保赋予此脚本可执行权限并通过以下方式启动它: ```bash chmod +x api_server.sh ./api_server.sh ``` #### 使用 vllm 进行优化部署 (可选) 对于希望进一步提升性能或简化管理流程的情况,考虑利用专门设计的大规模语言模型推理引擎如vllm来实现更高效的部署方案[^3]。具体操作指南参见相关技术文档获取更多细节说明。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值