Deep Learning:PyTorch 基于docker 容器的分布式训练实践

github_37320188

于 2019-09-05 16:24:17 发布

阅读量5.2k

点赞数 3

分类专栏： docker Deep Learning python 文章标签： pytorch docker 分布式深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/github_37320188/article/details/100519346

版权

本文详细介绍了如何在Docker容器中进行PyTorch的分布式训练，涵盖多机环境的设置，使用Gloo和NCCL后端，以及InfiniBand通信方式。通过具体的实践步骤，包括环境配置、代码修改和启动命令，展示了如何在Linux环境下进行GPU和CPU的分布式训练。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

引言

PyTorch distributed currently only supports Linux.

这句话是来自 pytorch 官网的 torch.distributed 部分，说明 pytorch 支持分布式训练，而且只在linux 上支持。

torch.distributed supports three backends, each with different capabilities.

同样来自上述页面，pytorch 在分布式训练中，支持三种后端（backend）进行集群管理或者通信。
在这里插入图片描述
那么，在什么情况下选用什么样的backend？

经验法则
- 使用NCCL后端进行分布式GPU培训
- 使用Gloo后端进行分布式CPU培训。
具有InfiniBand互连的GPU主机
- 使用NCCL，因为它是目前唯一支持InfiniBand和GPUDirect的后端。
GPU主机与以太网互连
- 使用NCCL，因为它目前提供最佳的分布式GPU训练性能，特别是对于多进程单节点或多节点分布式训练。如果您遇到NCCL的任何问题，请使用Gloo作为后备选项。（请注意，Gloo目前运行速度比GPU的NCCL慢。）
具有InfiniBand互连的CPU主机
- 如果您的InfiniBand已启用IP over IB，请使用Gloo，否则请使用MPI。我们计划在即将发布的版本中为Gloo添加InfiniBand支持。
具有以太网互连的CPU主机
- 除非您有特殊原因要使用MPI，否则请使用Gloo。

实践部分

首先，假设，我们要起一个分布式训练，起 2 个 rank。
把他们起来两台机器上，机器 1 的 ip 为 192.168.61.55，机器 2 的 ip 为 192.168.61.56
机器 1 上起 1 个 rank，机器 2 上起 1 个 rank

我这里使用的示例代码来自于 github 上的一段开源代码，地址是 https://github.com/pytorch/examples/tree/master/mnist 。我对这段代码做了些更改&

最低0.47元/天解锁文章

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。