书生·浦语大模型实战营（第三期）进阶岛第3关 LMDeploy 量化部署进阶实践

Pythonliu7

已于 2024-08-21 18:40:30 修改

阅读量1.3k

点赞数 32

文章标签： AI编程 ai

于 2024-08-20 08:34:31 首次发布

本文链接：https://blog.csdn.net/Pythonliu7/article/details/141322258

版权

实践闯关任务

1 配置LMDeploy环境

1.1 InternStudio开发机创建与环境搭建

在终端中，让我们输入以下指令，来创建一个名为lmdeploy的conda环境，python版本为3.10，创建成功后激活环境并安装0.5.3版本的lmdeploy及相关包。

conda create -n lmdeploy python=3.10 -y
conda activate lmdeploy
conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia -y
pip install timm==1.0.8 openai==1.40.3 lmdeploy[all]==0.5.3

1.2 InternStudio环境获取模型

为方便文件管理，我们需要一个存放模型的目录，本教程统一放置在/root/models/目录。

运行以下命令，创建文件夹并设置开发机共享目录的软链接。

mkdir /root/models
ln -s /root/share/new_models//Shanghai_AI_Laboratory/internlm2_5-7b-chat /root/models
ln -s /root/share/new_models/OpenGVLab/InternVL2-26B /root/models

此时，我们可以看到/root/models中会出现internlm2_5-7b-chat和InternVL2-26B文件夹。

1.3 LMDeploy验证启动模型文件

在量化工作正式开始前，我们还需要验证一下获取的模型文件能否正常工作，以免竹篮打水一场空。

让我们进入创建好的conda环境并启动InternLM2_5-7b-chat！

conda activate lmdeploy
lmdeploy chat /root/models/internlm2_5-7b-chat

稍待片刻，启动成功后，会显示如下。

此时，我们可以在CLI(“命令行界面” Command Line Interface的缩写)中和InternLM2.5尽情对话了，注意输入内容完成后需要按两次回车才能够执行，以下为示例。

不知道有没有小伙伴注意到屏幕右上角，这是InternStudio提供的资源监控。

请记住现在显存占用约23GB，先圈起来，待会要用上。

如果选择 50%A100*1 建立机器，同样运行InternLM2.5 7B模型，会发现此时显存占用为36GB。

那么这是为什么呢？由上文可知InternLM2.5 7B模型为bf16，LMDpeloy推理精度为bf16的7B模型权重需要占用14GB显存；如下图所示，lmdeploy默认设置cache-max-entry-count为0.8，即kv cache占用剩余显存的80%；

此时对于24GB的显卡，即30%A100，权重占用14GB显存，剩余显存24-14=10GB，因此kv cache占用10GB*0.8=8GB，加上原来的权重14GB，总共占用14+8=22GB。

而对于40GB的显卡，即50%A100，权重占用14GB，剩余显存40-14=26GB，因此kv cache占用26GB*0.8=20.8GB，加上原来的权重14GB，总共占用34.8GB。

实际加载模型后，其他项也会占用部分显存，因此剩余显存比理论偏低，实际占用会略高于22GB和34.8GB。

此外，如果想要实现显存资源的监控，我们也可以新开一个终端输入如下两条指令的任意一条，查看命令输入时的显存占用情况。

nvidia-smi 
studio-smi

注释：实验室提供的环境为虚拟化的显存，nvidia-smi是NVIDIA GPU驱动程序的一部分，用于显示NVIDIA GPU的当前状态，故当前环境只能看80GB单卡 A100 显存使用情况，无法观测虚拟化后30%或50%A100等的显存情况。针对于此，实验室提供了studio-smi 命令工具，能够观测到虚拟化后的显存使用情况。

2 LMDeploy与InternLM2.5

2.1 LMDeploy API部署InternLM2.5

在上一章节，我们直接在本地部署InternLM2.5。而在实际应用中，我们有时会将大模型封装为API接口服务，供客户端访问。

2.1.1 启动API服务器

首先让我们进入创建好的conda环境，并通下命令启动API服务器，部署InternLM2.5模型：

conda activate lmdeploy
lmdeploy serve api_server \
    /root/models/internlm2_5-7b-chat \
    --model-format hf \
    --quant-policy 0 \
    --server-name 0.0.0.0 \
    --server-port 23333 \
    --tp 1

命令解释：

lmdeploy serve api_server：这个命令用于启动API服务器。
/root/models/internlm2_5-7b-chat：这是模型的路径。
--model-format hf：这个参数指定了模型的格式。hf代表“Hugging Face”格式。
--quant-policy 0：这个参数指定了量化策略。
--server-name 0.0.0.0：这个参数指定了服务器的名称。在这里，0.0.0.0是一个特殊的IP地址，它表示所有网络接口。
--server-port 23333：这个参数指定了服务器的端口号。在这里，23333是服务器将监听的端口号。
--tp 1：这个参数表示并行数量（GPU数量）。

稍待片刻，终端显示如下。

这一步由于部署在远程服务器上，所以本地需要做一下ssh转发才能直接访问。在你本地打开一个cmd或powershell窗口，输入命令如下：

 ssh -CNg -L 23333:127.0.0.1:23333 [email protected]

最低0.47元/天解锁文章