运行 Triton 示例

最新推荐文章于 2025-05-29 13:00:05 发布

Jambo Chen

最新推荐文章于 2025-05-29 13:00:05 发布

阅读量2k

点赞数

CC 4.0 BY-SA版权

文章标签： nvidia triton

本文链接：https://blog.csdn.net/chenjambo/article/details/126282719

本文档详细介绍了如何运行 Nvidia Triton 示例，包括安装 Triton Docker 镜像，准备模型库，启动并验证 Triton 服务器是否正常运行。此外，还涵盖了获取客户端库和示例，以及各种示例应用程序的使用，如 Byte/String 数据类型、系统和 CUDA 共享内存，以及 Stateful Models 的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

安装 Triton Docker 镜像

在拉取镜像前，需要安装 Docker 和 NVIDIA Container Toolkit。

用以下命令拉取镜像

$ docker pull nvcr.io/nvidia/tritonserver:<xx.yy>-py3

其中 <xx.yy> 为镜像的版本，可在 NVIDIA NGC 上获得
在这里插入图片描述

准备示例模型库

模型库是一个目录，里面以一定的结构储存着数个模型。官方的示例模型库在 docs/examples/model_repository，启动 triton 前还需运行 fetch_models.sh 以获得完整的示例模型。

$ git clone https://github.com/triton-inference-server/server.git

$ cd server/docs/examples
$ ./fetch_models.sh

运行 Triton

使用以下命令启动 triton。其中 --gpus 表示给这个容器分配几个 GPU ，/full/path/to/docs/examples/model_repository 替换为模型库的完整路径，<xx.yy> 替换为镜像版本。

$ docker run --gpus=1 --rm --net=host -v /full/path/to/docs/examples/model_repository:/models nvcr.io/nvidia/tritonserver:<xx.yy>-py3 tritonserver --model-repository=/models

启动 triton 后，当终端上有以下输出时，表示 triton 已准备好接受推理请求。

+----------------------+---------+--------+
| Model                | Version | Status |
+----------------------+---------+--------+
| densenet_onnx        | 1       | READY  |
| inception_graphdef   | 1       | READY  |
| simple               | 1       | READY  |
| simple_dyna_sequence | 1       | READY  |
| simple_identity      | 1       | READY  |
| simple_int8          | 1       | READY  |
| simple_sequence      | 1       | READY  |
| simple_string        | 1       | READY  |
+----------------------+---------+--------+
...
...
...
I1002 21:58:57.891440 62 grpc_server.cc:3914] Started GRPCInferenceService at 0.0.0.0:8001
I1002 21:58:57.893177 62 http_server.cc:2717] Started

最低0.47元/天解锁文章