基于xinference推理引擎 + glm4-9b-chat模型的本地化部署探索

suibianshen2012

已于 2024-08-23 15:30:00 修改

阅读量1k

点赞数 5

CC 4.0 BY-SA版权

文章标签：大模型 glm4 xinference langchain

于 2024-07-12 09:25:25 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/suibianshen2012/article/details/140006528

【备注】从langchain-chatchat v0.3开始，所有的模型配置，均由推理模型（如：xinference ）进行加载和启动。

安装

Xinference 在 Linux, Windows, MacOS 上都可以通过 pip 来安装。如果需要使用 Xinference 进行模型推理，可以根据不同的模型指定不同的引擎。

如果你希望能够推理所有支持的模型，可以用以下命令安装所有需要的依赖：

pip install "xinference[all]"

Transformers 引擎

PyTorch(transformers) 引擎支持几乎有所的最新模型，这是 Pytorch 模型默认使用的引擎：

xinference 中配置并启动模型

pip install "xinference[transformers]"

1、启动xinference服务

xinference-local

查看支持的模型

xinference registrations --model-type LLM

2、执行transformer推理

xinference launch --model-name custom-glm4-chat --model-format pytorch --model-engine Transformers

【备注】可以用-u自定模型的uid名字

xinference launch

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。