纯CPU跑DeepSeek-R1 671b大模型

0. 研究背景

DeepSeek-R1大模型这段时间非常火爆。网上的教程很多,但是他们大部分都是在GPU中推理的。那么这期我计划使用CPU来推理。因为英伟达显卡太贵了,对于个人还是公司来说,成本都太高了。本期研究目的纯属个人爱好,如果大家觉得这篇文章对你有用,可以转发给你的好朋友,不妨点点赞,你的点赞虽然是免费的,但是却是我更新的动力。

1. 服务器准备

由于我只有一台笔记本电脑,并且配置有限,因此打算在网上租一台高性能的裸机服务器,什么是裸机物理服务器呢,也就是整台机子都是属于你自己,这点与云服务器还是有差别的。这里我选择了国外的服务器,为啥选择国外服务器,因为下载大模型文件更快,下载速度可以达到1.5GB/s甚至更快。这里使用的服务器是vultr的,可以点击这里,跳转到官方网站。

image-20250223153905654

然后选择地理位置,这里我选择了US中的洛杉矶,服务器配置如下表格所示。

CPU内存硬盘系统
AMD 9254 24核心48线程384GB480GBUbuntu22.04

我这里计划部署671b参数量的deepseek-r1大模型。更具体的配置以及价格可以看下方的截图。

image-20250223154710793

注意:这里有很多国人有误区,以为国外的网站都访问被限制,目前我写这篇文章为止,这个vultr是可以在国内直接访问的,并且支持国内的支付系统,支持支付宝,完全不用担心没有海外信用卡导致无法支付的问题。

2. 部署与访问

经过上面的步骤,我们已经租好了服务器,或者如果你自己有高配置的服务器或者个人PC,那么也可以不用租服务器。

2.1 安装ollama

下面开始正式部署我们的大模型deepseek-r1了,我们这里使用ollama的方式部署,这也是最简单的部署方式。首先我们需要安装ollama,这里我使用的服务器Linux系统,可以使用下面的命令来安装ollama。

curl -fsSL https://ollama.com/install.sh | sh

如果你使用的是其它操作系统,可以到ollama的官方网站中,下载安装ollama。你可以点击这里直接跳转到ollama官方网站中

2.2 部署deepseek-r1大模型

这里部署最大参数量的模型,也就是671b的大模型。

这里使用下面命令即可下载并启动模型。

ollama run deepseek-r1:671b

然后就可以实现在命令行中与大模型进行对话了。我们这里还没完结,如想要在本地通过GUI界面方式与大模型进行对话,那么我们需要在我们的本地电脑上安装chatbox,然后通过配置方式对接到我们在服务器中部署的大模型deepseek-r1 671b的大模型。

2.3 本地访问大模型

经过上面这些步骤,我们可以在服务器上通过命令行的方式来对话了,但是这样效果看起来不太好,我们还需一个GUI界面来渲染大模型返回的markdown格式的数据。那么下面就使用chatbox方式作为deepseek-r1 671b大模型的GUI界面吧。

首先下载这个chatbox,可以点击这里,访问chatbox官方网站,如果你不想下载,你甚至可以直接使用网页版本。如果你想要在手机上使用,你也可以下载对应的手机版本。

image-20250223160056813

安装过程和其它软件的安装过程一样简单,也就是双击根据提示就能安装上,这里就不再赘述了。

2.4 配置chatbox

安装好后,我们就可以配置了。

如果你是第一次使用chatbox,那么会在启动时自动弹窗让你去配置使用什么大模型。如果你以前使用过chatbox那么,可以点击左下方的"设置"按钮,然后在弹窗中选择"Ollama API",如下图所示。

image-20250223160636686

然后是填上你的公网ip地址,如果是在局域网内部署的,那么填上你的局域网ip地址,并且选择你服务器端部署的671b参数量的deepseek-r1大模型。如下图所示。

image-20250223160943932

到此,我们部署的整个过程就结束了。

如果你在部署中遇到什么不能解决的问题,欢迎在评论区讨论。

如果你是小白,不懂Linux命令,可以点击这里访问我的博客

### 如何部署 DeepSeek-R1 671B 模型 对于大型模型如DeepSeek-R1 671B,其部署过程涉及多个方面,包括但不限于环境准备、资源分配以及具体的技术实现细节。鉴于此规模的模型通常需要强大的硬件支持和优化措施来确保性能。 #### 环境配置与依赖安装 为了成功部署DeepSeek-R1 671B模型,首先需创建适合该模型运行的操作系统环境并安装必要的软件包。这可能涉及到设置Python虚拟环境,并通过pip或其他工具安装所需的库文件[^1]。 ```bash conda create --name deepseek_env python=3.9 conda activate deepseek_env pip install torch transformers accelerate bitsandbytes ``` #### 下载预训练模型 利用Hugging Face Hub可以方便地获取官方发布的DeepSeek系列模型权重。针对具体的671B版本,操作方式如下所示: ```python from huggingface_hub import snapshot_download model_id = "deepseek-ai/DeepSeek-R1-Distill-Llama-671B" local_dir = "./models/deepseek-r1-distilled-llama-671b" snapshot_download(repo_id=model_id, local_files_only=False, cache_dir=None, local_dir=local_dir) ``` 上述代码片段展示了如何指定目标存储路径`local_dir`并将远程仓库中的数据同步到本地磁盘上。 #### 加载与推理服务化 完成模型下载之后,则可进一步编写用于加载模型实例并向用户提供API接口的服务端逻辑。考虑到内存占用等因素,在实际应用中建议采用分布式计算框架或GPU集群加速运算效率。 ```python import torch from transformers import AutoModelForCausalLM, AutoTokenizer tokenizer = AutoTokenizer.from_pretrained(local_dir) model = AutoModelForCausalLM.from_pretrained(local_dir) device = 'cuda' if torch.cuda.is_available() else 'cpu' model.to(device).eval() ``` 以上脚本实现了基于PyTorch平台上的模型初始化工作,并将其迁移到可用设备(CPU/GPU)之上以便后续执行预测任务。 #### 性能调优策略 由于此类超大规模语言模型对算力需求极高,因此还需要考虑一系列针对性强的方法来进行性能调整,比如量化技术的应用、混合精度训练等手段都可以有效降低资源消耗的同时保持较高的准确性水平。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值