Dify 与 Xinference 最佳组合 GPU 环境部署全流程

背景介绍

在前一篇文章 RAG 项目对比 之后,确定 Dify 目前最合适的 RAG 框架。本次就尝试在本地 GPU 设备上部署 Dify 服务。

Dify 是将模型的加载独立出去的,因此需要选择合适的模型加载框架。调研一番之后选择了 Xinference,理由如下:

  • 支持多种类型的模型,包括 LLM,Embedding, Rerank, Audio 等多种业务场景的模型需求,一个框架全搞定;
  • 方便的模型管理能力,提供可视化页面快速部署模型
  • 支持直接从 ModelScope 下载模型,避免 huggingface 被墙的问题;

本文是 Dify 与 Xinference 最佳组合的 GPU 设备部署流程。为了充分利用 nvidia GPU 的能力,需要先安装显卡驱动,CUDA 和 CuDNN,这部分网上的教程比较多了,大家可以自行搜索参考安装,安装时需要注意版本需要与自己的 GPU 显卡版本匹配。

Dify 部署

参考 Dify 官方文档 进行安装。

首先需要下载 Dify 对应的代码:

git clone https://github.com/langgenius/dify.git

之后创建环境变量文件 .env, 根据需要进行修改,之后就可以基于 docker compose 启动:

cd dify/docker
cp .env.example .env
docker compose up -d

默认访问 http:// 应该就可以看到 Dify 的页面。

docker 镜像问题

实际执行镜像拉取时发现,Docker hub 因为监管的原因已经无法访问了。为了解决这个问题,目前相对可行的方案:

  1. 利用一些目前可用的镜像服务,当前(2024-7-11)可用的是 public-image-mirrorÿ
### 使用GPU在本地运行Xinference大模型 #### 准备工作 为了确保能够顺利使用GPU来运行Xinference的大模型,需要确认已经安装了NVIDIA驱动程序以及CUDA工具包。可以通过执行`nvidia-smi`命令验证环境配置是否正确[^4]。 #### 安装依赖项 通过pip可以方便地完成Xinference及其所需依赖组件的安装,在Linux、Windows或MacOS上均适用此方法[^1]: ```bash pip install xinference ``` #### 启动Qwen模型 首次启动Qwen模型时,Xinference将会自动连接至HuggingFace平台并下载必要的模型参数;这一过程可能耗时数分钟不等。值得注意的是,这些被下载下来的文件会被保存于本地作为缓存处理,因此后续再次加载同一模型时无需重复下载操作[^2]。 对于希望加速初次部署体验的情况,也可以考虑预先手动获取目标模型的数据集,并将其放置在一个易于访问的位置供Xinference读取。 #### 测试图片生成模型 当涉及到特定类型的计算密集型任务比如图像合成时,则推荐采用具备至少12GB显存容量以上的GPU设备来进行实验。以Stable Diffusion Turbo为例,其初始化阶段同样较为耗费时间资源,用户应当保持耐心直至整个流程结束为止[^3]。 #### 示例代码片段展示如何利用GPU加速功能调用Xinference API接口: ```python import torch from transformers import AutoModelForCausalLM, AutoTokenizer device = "cuda" if torch.cuda.is_available() else "cpu" model_name_or_path = 'your_model_identifier' tokenizer = AutoTokenizer.from_pretrained(model_name_or_path) model = AutoModelForCausalLM.from_pretrained(model_name_or_path).to(device) input_text = "Your input prompt here." inputs = tokenizer(input_text, return_tensors="pt").to(device) outputs = model.generate(**inputs) generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True) print(generated_text) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

易迟

高质量内容创作不易,支持下

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值