基础岛 - 8G显存验证书生·浦语大模型的Demo_8g显存可以跑的图像识别模型-CSDN博客

因为以前用过LMDeploy，所以本章的内容相对熟悉。
另外，因为教程写的很详细保姆级，所以大多数情况直接复制执行命令即可。开发机的创建略过。

总体验证结论：

LMDeploy的模型加载有点慢，但推理速度快，符合预期
新一代视觉-语言多模态大模型InternVL2-2B模型的能力出乎意料的好，作为2B参数模型相当出色
Streamlit和Gradio简单高效，配合LLM运用做原型开发很合适，LMDeploy内置支持Gradio

Python环境的准备

在 /root/share/pre_envs 中配置好了预置环境 icamp3_demo
可以通过如下指令进行激活：
conda activate /root/share/pre_envs/icamp3_demo

Cli Demo 部署 InternLM2-Chat-1.8B 模型

首先，创建一个目录，用于存放我们的代码。并创建一个 cli_demo.py。

mkdir -p /root/demo
touch /root/demo/cli_demo.py

然后，我们将下面的代码复制到 cli_demo.py 中。

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM


model_name_or_path = "/root/share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b"

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, trust_remote_code=True, device_map='cuda:0')
model = AutoModelForCausalLM.from_pretrained(model_name_or_path, trust_remote_code=True, torch_dtype=torch.bfloat16, device_map='cuda:0')
model = model.eval()

system_prompt = """You are an AI assistant whose name is InternLM (书生·浦语).
- InternLM (书生·浦语) is a conversational language model that is developed by Shanghai AI Laboratory (上海人工智能实