【备注】从langchain-chatchat v0.3开始,所有的模型配置,均由推理模型(如:xinference )进行加载和启动。
安装
Xinference 在 Linux, Windows, MacOS 上都可以通过 pip
来安装。如果需要使用 Xinference 进行模型推理,可以根据不同的模型指定不同的引擎。
如果你希望能够推理所有支持的模型,可以用以下命令安装所有需要的依赖:
pip install "xinference[all]"
Transformers 引擎
PyTorch(transformers) 引擎支持几乎有所的最新模型,这是 Pytorch 模型默认使用的引擎:
xinference 中配置并启动模型
pip install "xinference[transformers]"
1、启动xinference服务
xinference-local
查看支持的模型
xinference registrations --model-type LLM
2、执行transformer推理
xinference launch --model-name custom-glm4-chat --model-format pytorch --model-engine Transformers
【备注】可以用-u自定模型的uid名字
xinference launch