部署ollama用gpu
时间: 2025-06-20 11:16:38 浏览: 8
### 如何利用 GPU ploy Ollama 模型
为了成功利用 GPU 来部署 Ollama 模型,需要完成以下几个方面的设置:
#### 1. 环境准备
确保本地已经安装并配置好 NVIDIA 的驱动程序以及 CUDA 工具包。这是实现 GPU 加速的基础条件之一[^1]。如果缺少这些组件,则即使后续完成了其他部分的配置也无法正常调用到 GPU 资源。
#### 2. Docker 运行时配置
当通过 Docker 部署 Ollama 时,需指定 `nvidia` 作为容器运行时(runtime),以便让容器能够访问主机上的 GPU 设备。这可以通过修改或创建一个新的 `docker-compose.yml` 文件来实现,在其中定义 service 并加入如下参数:
```yaml
version: '3'
services:
ollama:
image: ollama/ollama
container_name: ollama_gpu
runtime: nvidia # 使用 Nvidia Runtime
environment:
- TZ=Asia/Shanghai # 设置时区
- NVIDIA_VISIBLE_DEVICES=all # 显示所有可用设备给容器内部应用使用
networks:
- ai-tier # 自定义网络名称
ports:
- "11434:11434" # 将端口映射至外部可连接地址
volumes:
- ./data:/root/.ollama # 数据挂载路径
networks:
ai-tier:
driver: bridge # 使用桥接模式构建虚拟网卡结构
```
上述 YAML 片段展示了如何正确地声明一个基于 NVDIA GPU 支持的服务实例[^3]。特别注意的是 `runtime: nvidia` 行的存在与否直接影响着最终能否顺利加载显卡硬件功能;另外还需要确认变量 `NVIDIA_VISIBLE_DEVICES` 是否被正确定义成允许范围内的值(这里设定了全部可见)。
#### 3. 启用 NVIDIA Container Toolkit
除了调整 Compose 文件外,还需进一步激活 NVIDIA 提供的相关工具集——即 **NVIDIA Container Toolkit** 。此操作可通过命令行执行以下两步达成目标:
- 执行脚本自动配置当前系统的 Docker daemon JSON 文件以包含必要的选项;
```bash
sudo nvidia-ctk runtime configure --runtime=docker
```
- 接下来重新启动 Docker 守护进程使更改生效:
```bash
sudo systemctl restart docker
```
这样做的目的是为了让任何新建或者已存在的容器都能继承宿主机上关于图形处理器的信息,并且可以无缝衔接地开展训练推理等工作流程[^4]。
#### 4. 测试验证
最后一步就是实际测试整个链路是否通畅无阻塞。一种简单的方法是在终端输入下面这条指令查看是否有预期中的输出结果返回:
```bash
docker run --rm --gpus all nvidia/cuda:11.0-base nvidia-smi
```
假如一切均按计划进行的话,应该可以看到类似于下图所示的内容列表展示出来各个物理核心的状态详情等信息[^2]。
---
### 注意事项
在整个过程中可能会遇到一些常见错误提示比如找不到合适的驱动版本号之类的状况,请参照官方文档说明逐步排查解决办法直至完全消除障碍为止。
---
阅读全文
相关推荐

















