大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。喜欢通过博客创作的方式对所学的知识进行总结与归纳,不仅形成深入且独到的理解,而且能够帮助新手快速入门。
本文主要介绍了Tensorflow 2.x(keras)源码详解之第十六章:分布式部署(如何使用GPU),希望能对学习TensorFlow 2的同学有所帮助。
1. 分布式训练前言
-
默认情况下,keras会使用机器上最好的资源进行训练,如果服务器有TPU会自动使用TPU;在没有TPU,有GPU的情况下,自动使用GPU;TPU和GPU都没有时,使用CPU。
-
当使用GPU时,如果服务器有多块GPU,一个任务默认会占满每一块GPU的几乎全部存储空间。
-
在一台或多台机器上,要顺利地在多个 GPU 上运行,最简单的方法是使用分布策略
-
设置:
- 查看是否有GPU,以及GPU的详情以及查看CPUS
gpus