有手就行的大语言模型部署-保姆级教程-大模型推理服务框架Xinference一键部署

本文链接：https://blog.csdn.net/weixin_37863729/article/details/141135462

一.引言

上一篇大语言模型推理服务框架—Ollama介绍了Ollama，Ollama以出色的设计一行命令完成推理框架部署，一行命令完成大模型部署，模型的下载不依赖梯子，速度非常快，大幅提升模型部署效率，同时，当有多卡GPU时，Ollama可以自动将模型分片到各个GPU上，博主使用V100显卡（单卡32G显存）部署llama3 70B（预计需要40G显存），自动完成了显存分配。

今天来介绍一下Xinference，与Ollama比较，Xinference自带Webui与用户交互更加友好，只需点一下所需要的模型，自动完成部署，同时，Xinference在启动时可以指定Modelscope社区下载模型，对于无法登陆抱抱脸的伙伴，可以大幅提升模型下载效率。

这里还是想说两句，大模型领域，美帝目前确实是领先的，我们能做的只能是努力追赶，但在追赶的过程中发现，好多优秀的大模型领域开源项目，都是默认配置hugging face的，一方面是下载模型时间甚至超过了熟悉项目本身，另一方面是压根连不上导致项目跑不起来，导致在这片土地上水土不服。当然对在这片热土上生存的企业及工程师，可能学习门槛的提升，也是一件好事，天热的技术护城河哈哈

二.一行代码完成Xinference本地部署

docker run -it --name xinference -d -p 9997:9997 -e XINFERENCE_MODEL_SRC=modelscope -e XINFERENCE_HOME=/workspace -v /yourworkspace/Xinference:/workspace  --gpus all xprobe/xinference:latest xinference-local -H 0.0.0.0

docker run -it：启动docker容器并在内部使用终端交互
--name xinference：指定docker容器名字为xinference，如不设置随机生成
-d：后台运行，如果不设置会进入到docker容器内
-p：9997:9997，宿主机端口:docker容器端口
-e XINFERENCE_MODEL_SRC=modelscope：指定模型源为modelscope，默认为hf
-e XINFERENCE_HOME=/workspace：指定docker容器内部xinference的根目录
-v /yourworkspace/Xinference:/workspa