一步一步理解大模型：管道并行优化技术

最新推荐文章于 2025-05-05 16:27:49 发布

chattyfish

最新推荐文章于 2025-05-05 16:27:49 发布

阅读量1.1k

点赞数 1

CC 4.0 BY-SA版权

文章标签：人工智能深度学习自然语言处理

本文链接：https://blog.csdn.net/chattyfish/article/details/131840449

本文介绍如何应对大模型训练时的内存挑战，通过管道并行技术将模型层分配到不同GPU处理。内容包括微批次处理、模型分割和管线管理，重点讨论了FairScale库中的实现细节，特别是利用'栅栏同步'确保数据在计算和传输间的正确同步。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

当模型的大小对单个 GPU 来说过大时，训练大型模型可能会导致内存溢出。为了训练如此大型的模型，可以将各层在不同的 GPU 设备上用管道式并行(Pipeline Parallelism)技术处理。

所谓管道式并行，是按照下图所示，将模型不同的层放在不同的GPU上并行处理。相应的前馈传播和后向传播都需要放在同一个设备中计算。

另外批量的训练数据也划分成更小的批量，称为微批次（micro-batches），在当前设备处理完毕微批次后，把输出传送到下一个设备，同时自身接受下一个微批次，从而实现并行处理。

../_images/pipe.png

（图片来自FairScale文档）

FairScale的管道并行实现的源代码在这个位置：

https://github.com/facebookresearch/fairscale/tree/main/fairscale/nn/pipe

有以下源码可以关注：

1. 微批次（micro-batch) 代码：

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

chattyfish

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

模型加速技术在模型并行计算领域应用案例

AI天才研究院

07-26

1171

随着信息化建设的推进、社会经济活动日益多样化、经济体系不断优化，模型训练、评估、优化等机器学习任务变得越来越复杂，且对大规模并行计算集群的需求也越来越强烈。而为了解决这一问题，深度学习框架开发者们引入了分布式计算机制和模型并行计算策略来加速模型的训练过程，包括数据并行（Data Parallelism）、模型并行（Model Parallelism）、流水线并行（Pipeline Parallelism）。这些技术可以有效提升大型模型的训练效率。

多模态大模型：技术原理与实战在LLM时代，对软件研发的更多思考————从软件 1.0 迈向软件 2.0 时代

AI天才研究院

06-29

1587

软件1.0 vs 软件2.0 - **软件1.0**：传统的软件开发方法，通过人工编写明确的**程序逻辑和规则**来实现功能。 - **软件2.0**：利用AI和机器学习技术，通过**训练模型来"学习"如何执行任务，而不是显式编程**。在这种范式下，软件的行为更多地**由数据和学习算法决定，而不是固定的规则。**

1 条评论您还未登录，请先登录后发表或查看评论

浅谈管道模型(Pipeline)

tansitongba

05-12

4717

本篇和大家谈谈一种通用的设计与处理模型——Pipeline（管道）。 Pipeline简介 Pipeline模型最早被使用在Unix操作系统中。据称，如果说Unix是计算机文明中最伟大的发明，那么，Unix下的Pipe管道就是跟随Unix所带来的另一个伟大的发明【1】。我认为管道的出现，所要解决的问题，还是软件设计中老生常谈的设计目标——高内聚，低耦合。它以一种“链式模型”来串接不同的程序或者不同...

大模型分布式训练进阶之路：数据并行、管道并行、张量并行、3D并行

python123456_的博客

08-26

2194

系统化的学习大模型，除了知道大模型是什么，也得知道大模型是如何训练的，对大模型的实际应用有更加定量的认知，该文章也算是一篇分布式训练的学习过程总结，作为循序渐进学习分布式训练的总结。类似之前写过的LLM文章，本文也建议读者先定性有个宏观认知，然后再细化到某个概念定量了解，遇到不太清楚的概念深度递归去学习。

大模型基础（四）：transformers库（上）：pipline、模型、分词器

最新发布

TANTANWANG的博客

05-05

633

🤗 Hugging Face Transformers 库是一个用于自然语言处理（NLP）和计算机视觉（CV）的开源深度学习库，以提供丰富的预训练模型和便捷的模型调用接口而闻名。核心功能预训练模型支持• 提供数千种预训练模型（如 BERT、GPT、T5、ViT、Stable Diffusion 等），涵盖文本、图像、音频等多模态任务。• 支持 PyTorch、TensorFlow 和 JAX 框架，可自由选择模型格式。统一接口设计• 通过AutoModel。

大模型应用系列03：pipeline 背后的工作

加百力的技术博客

12-25

1465

我们输入的纯文本经过 tokenzier 处理之后得到了 model input，然后通过 body 得到了称为隐藏状态的表示（这个表示是基座模型对输入文本的理解），最后由具体的任务头去利用这个表示做具体的处理（比如进行分类）。不过需要注意的是，此时的 BERT 模型是未经训练过的，其中的参数都是随机初始化的，我们虽然可以根据手头的任务和资源从头训练（耗时耗钱且容易有意外情况），但是最好是使用别人预训练好的模型。》通过 pipeline 了解了很多大模型应用的例子，比如下面的文本分类任务。

图解大模型分布式训练：流水线并行

Antai_ZHU的博客

12-11

1370

GPipe需要等所有的microbatch前向传播完成后，才会开始反向传播。PipeDream则是当一个microbatch的前向传播完成后，立即进入反向传播阶段。理论上，反向传播完成后就可以丢弃掉对应microbatch缓存的激活。由于PipeDream的反向传播完成的要比GPipe早，因此也会减少显存的需求。GPipe与PipeDream主要差别是在梯度更新上，Gpipe是最后同步一次更新的，而PipeDream是异步的。异步方法更进一步降低了GPU的空转时间比。

pipeline 详解

yitang的博客

11-27

1240

transformers库中的pipeline是一种极简方式使用大模型推理的抽象，将所有大模型分为语音（Audio）、计算机视觉（Computer vision）、自然语言处理（NLP）、多模态（Multimodal）等4大类，28小类任务（tasks）。

大语言模型中的查询优化技术：从基础到前沿的全景解析

AIBigModel的博客

01-08

1483

作者：北方的郎原文：https://zhuanlan.zhihu.com/p/15596329418在人工智能的浪潮中，大语言模型（LLMs）如ChatGPT等已经展现出了令人惊叹的能力，能够生成流畅的文本、回答复杂的问题，甚至进行多轮对话。然而，尽管这些模型在通用任务上表现出色，但在处理特定领域或需要最新信息的查询时，它们仍然面临着“幻觉”问题——即生成看似合理但实际不准确的内容。

PyTorch深度学习加速指南：数据管道优化技巧大揭秘

[PyTorch深度学习加速指南：数据管道优化技巧大揭秘](https://ask.qcloudimg.com/http-save/170434/w4lwl37gue.jpeg) # 1. PyTorch深度学习概述 PyTorch是一个开源的机器学习库，由Facebook的人工智能研究团队开发...

【人工智能】Transformers 之 Pipeline（解析）：30w + 大模型轻松上手

2401_86518761的博客

10-08

1782

管道是一种使用模型进行推理的简单而好用的方法。这些管道是从库中抽象出大部分复杂代码的对象，提供了专用于多项任务的简单 API，包括命名实体识别、掩码语言建模、情感分析、特征提取和问答。在使用上，主要有2种方法使用task实例化pipeline对象使用model实例化pipeline对象。

并行处理管道

weixin_30699465的博客

04-01

271

当进行大规模的数据计算时会将计算拆分进行并行计算以提升效率我们这里以cpp进行一个并行计算的模拟并且分析讲解流程让大家对其有个了解认识任务以排序和统计单词计数为例数据排序例子 1 假设我们有许多数字需要排序(1T=1000G的数据),如果由一台执行排序处理,速度会非常缓慢.那么我们如何将数据划分成多台机器处理? 数据采集 2 将数据根据情况划分成多块,分别排序.效...

DNN之LNN：训练大型神经网络的核心技术(数据并行+管道并行+张量并行+专家混合MoE+内存优化策略【CheckPoint梯度检查点/AMP混合精度训练/Offloading数据卸载/优化器内存优化

头部AI社区如有邀博主AI主题演讲请私信—心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，专注，谦虚，自律，反思，成长，还算比较正能量的博主，公益免费传播…内心特别想在AI界做出一些可以推进历史进程影响力的技术(兴趣使然，有点小情怀，也有点使命感呀

11-06

1872

DNN之LNN：训练大型神经网络的核心技术(数据并行+管道并行+张量并行+专家混合MoE+内存优化策略【CheckPoint梯度检查点/AMP混合精度训练/Offloading数据卸载/优化器内存优化/压缩技术)之详细攻略 DNN之LNN：《Techniques for training large neural networks训练大型神经网络的技术》训练大型神经网络的核心技术(数据并行+管道并行+张量并行+专家混合MoE+内存优化策略【CheckPoint梯度检查点/AMP混

命名管道用于并行执行

专栏

02-05

971

mkfifo p_file 创建fifo (first in first out) 文件, 文件出来之后可以看见文件类型是p, 管道文件 prw-r–r– 1 tcaplus users 0 9月 7 17:35 p_file 往这个文件里面写的数据, 每次读一行, 只能从头部读出, 读出之后就删除这一行我们常用的匿名管道 “|” 是一块内存区域. 使用命名管道的话, 这就是一...

分布式训练-模型并行：流水线并行【PP（Pipeline Parallelism）】【不是用于提速，是用于解决一张卡放不下模型】

u013250861的博客

08-26

830

¶与数据并行不同，流水线并行将模型的不同层放置到不同的计算设备，降低单个计算设备的显存消耗，从而实现超大规模模型训练。以上图为例，示例模型包含四个模型层。该模型被切分为三个部分，并分别放置到三个不同的计算设备。即，第 1 层放置到设备 0，第 2 层和第三 3 层放置到设备 1，第 4 层放置到设备 2。相邻设备间通过通信链路传输数据。

GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism

Dartao的博客

03-22

1957

在 "GPipe:Efficient Training of Giant Neural Networks using Pipeline Parallelism"（使用流水线并行技术有效培训巨型神经网络）一文中，展示了如何使用流水线并行技术扩展 DNN 训练，从而克服这一限制。GPipe 是一个分布式机器学习库，使用同步随机梯度下降和流水线并行技术进行训练，适用于任何由多个序列层组成的 DNN。

【分布式深度学习-文章阅读】GPipe: Efficient Training of Giant Neural Networksusing Pipeline Parallelism

小欧欧的博客

08-15

1789

1、这篇文章是近期大多数做分布式并行训练的 baseline之一； 2、这篇文章侧重点就是model parallelism，往细了说就是layer parallelism，再通俗点就是，grouped layer parallelism； 3、曾经最常用的是，data parallelism，但是随着transformer等大模型的出现，不用model parallelism基本上等于放弃研究了，所以model parallelism再次回归，然后大热。......

A Practical Approach to Exploiting Coarse-Grained Pipeline Parallelism in C Program

Max Wong

05-16

1032

出版信息：Conference: 40th IEEE/ACM International Symposium on MicroarchitectureAuthor: William Thies, Vikram Chandrasekhar, Saman AmarasingheYear: 2007p.p.: 356 ~ 368内容总结：文章寻求一种将老旧的C程序并行化的办法。文章的办法是让程序员在程序中加入提示符，而提示符是以宏的形式定义的，用途是把一个循环内的工作分阶段地并行化。当任务分好阶段后，就通过不同的

流水线并行（Pipeline Parallelism）原理详解

日常学习与专研的记录

09-30

3818

本文介绍流水线并行的原理和主要流程。