引言:本系列的目的是从零开始记录复现vicuna模型的过程,包括了fastchat库的复现和vicuna具体的代码细节,包括微调和推理,所有实验均基于linux系统4090服务器。
第一章:环境安装与“hello world”
官方项目地址
配置环境:
conda create -n fastchat python=3.10.14
conda activate fastchat
git clone https://github.com/lm-sys/FastChat.git
cd FastChat
pip3 install -e ".[model_worker,webui]"
环境配置好之后,使用huggingface 国内镜像源下载vicuna模型,这里选择下载vicuna 7B v1.5
模型权重官网:
https://huggingface.co/lmsys/vicuna-7b-v1.5https://huggingface.co/lmsys/vicuna-7b-v1.5用以下代码即可直接下载模型到本地指定路径位置:
import os
from huggingface_hub import snapshot_download
os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"
snapshot_download(
repo_id="lmsys/vicuna-7b-v1.5",
local_dir="/data/{your_name}/project/FastChat/ckpts/vicuna-7b-v1.5"
)
下载完成配置好模型路径之后就可以输入以下代码运行啦!
python3 -m fastchat.serve.cli --model-path lmsys/vicuna-7b-v1.5
最后是终端代码对话的效果和显存占用:
(第一次加载的时候会比较慢)
vicuna7B模型在服务器上的显存占用在14G左右,用4090显卡生成速度很快,基本没有延迟
后续对代码的分析将持续更新,敬请关注!