Zero deepspeed是啥

### Zero Deepspeed 概览 Zero 是由微软开发的一种用于优化大规模模型训练的技术，旨在通过减少内存占用来提高分布式训练效率[^3]。该技术允许更高效的资源利用，在不牺牲性能的情况下支持更大规模的神经网络。 #### Stage 0: 基础优化 Stage 0 主要提供了一些基础性的改进措施，比如参数广播重叠通信与计算等基本操作上的并行化处理方式。这使得即使是在单节点多GPU环境下也能获得一定的加速效果。 #### Stage 1: 参数分片 (Parameter Sharding) 在这一阶段，除了继承自Stage 0 的特性外，还引入了参数矩阵切分机制——即将权重张量按照列方向拆分成多个子块，并分配给不同的设备负责更新；同时梯度也会相应地被分割开来累积求和后再同步回全局副本位置上完成一次完整的反向传播过程。这种方法可以有效降低每台机器所需承载的工作负载以及显存消耗水平。 #### Stage 2: 数据并行中的全精度激活检查点保存此级别进一步扩展了前两个版本的功能集合，增加了对浮点数格式下中间状态变量存储空间的有效管理策略。具体而言就是仅保留必要的部分而非全部历史记录来进行后续迭代运算时所需的依赖关系重建工作，从而达到节省更多RAM的目的。此外，它也能够兼容更高阶别的混合精度模式以获取额外的速度增益优势。 #### Stage 3: 完整的 ZeRO-Offload 技术栈这是目前最为先进的实现形式之一，不仅涵盖了上述提到过的所有优点而且还加入了CPU卸载功能，即把一部分不太紧急的任务交给后台处理器去执行进而释放出更多的即时可用算力供前台程序调用。这样一来便可以在保持良好吞吐率的同时显著削减整体功耗开销，非常适合应用于超大型集群环境中开展长时间稳定的科研项目研究活动。 ```python from transformers import AutoModelForCausalLM, AutoTokenizer import deepspeed model_name_or_path = "bigscience/bloomz" tokenizer = AutoTokenizer.from_pretrained(model_name_or_path) model = AutoModelForCausalLM.from_pretrained(model_name_or_path) training_args = { 'local_rank': -1, 'zero_optimization': { 'stage': 3, 'offload_optimizer': {'device': 'cpu'}, 'allgather_partitions': True, 'allgather_bucket_size': 2e8, 'reduce_scatter': True, 'reduce_bucket_size': 2e8, 'overlap_comm': True, 'contiguous_gradients': True, 'sub_group_size': 1e9, 'elastic_checkpoint': True } } # Initialize model with DeepSpeed model_engine, optimizer, _, _ = deepspeed.initialize( args=training_args, model=model, model_parameters=[p for p in model.parameters() if p.requires_grad], config_params="./ds_config.json" ) ```

阅读全文

Zero deepspeed是啥

相关推荐

大模型分布式训练框架-Microsoft DeepSpeed

DeepSpeedExamples:使用 DeepSpeed 的示例模型

DeepSpeed：DeepSpeed是一个深度学习优化库，可让分布式培训变得轻松，高效，有效

deepspeed zero

deepspeed zero使用

deepspeed zero offload

deepspeed zero3

deepspeed的zero策略

deepspeed的zero3代码

deepspeed库中的zero技术

deepspeed是什么

deepspeed

自定义模型如何使用deepspeed的zero3

deepspeed教程

pytorch deepspeed

deepspeed python

deepspeed CPU

连接deepspeed

deepspeed原理

deepspeed ai

大家在看

TXT文件合并器一款合并文本文件的工具

Scratch语言教程&案例&相关项目资源

Xilinx 7系列FPGA手册[打包下载]

filter LTC1068 模块AD设计 Altium设计 硬件原理图+PCB文件.rar

谐响应分析步骤-ANSYS谐响应分析

最新推荐

网络工程师面试题(80%命中率).doc

cc65 Windows完整版发布：6502 C开发工具

【CLIP模型实战】：从数据预处理到代码实现的图文相似度计算完全指南

车载以太网doip协议格式

JavaScript中文帮助手册：初学者实用指南

深入理解MySQL存储引擎：InnoDB与MyISAM的终极对决

window中系统中断，cpu占用100%

C++Builder6.0缺失帮助文件的解决方案

【湖北专升本MySQL强化训练】：5大SQL语句编写技巧，迅速提升实战能力

HFSS如何设置网格化细化

filter LTC1068 模块AD设计 Altium设计硬件原理图+PCB文件.rar