如何估算大模型训练所需算力?(非常详细)从零基础入门到精通,收藏这篇就够了

ChatGPT横空出世引发了“百模大战”,算力需求成为焦点, GPU卡一时洛阳纸贵。训练一个大模型,究竟需要多少张GPU卡呢?2023年初写了篇文章《训练GPT模型需要多少算力?》大致总结了一下,但没有提到推导过程,今天有空展开聊聊。

据估计,OpenAI训练GPT-4模型,很有可能应用了10000到20000张英伟达A100。按照马斯克的说法,GPT-5的训练可能需要3万到5万张H100,可见随着大模型的迭代发展,训练所需算力也呈爆发性增长。

早在2020年,OpenAI使用数千张V100卡训练GPT-3,花了1个月左右的时间才完成。Inflection公司基于超过3500张H100卡,在C4数据集下,仅用了不到11分钟就训练完 GPT-3模型。下图是不同参数量、数据量的训练时间。

大模型训练需要的算力究竟是怎么计算出来的呢?OpenAI在Scaling Laws 论文中给我们提出了一个经验公式:C = rT ≈ 6*P*D

解释一下该公式:C是训练一个Transformer模型所需的算力,单位是FLOPS;

P是Transformer模型中参数的数量;

D是训练数据集的大小,也就是用多少tokens来训练;

r是训练集群中所有硬件总的算吞吐,单位是FLOPS,T是训练模型需要的时间,单位是秒。为什么系数是6?Scaling Laws论文对这个公式做了简单推导,在此不展开。

在计算所需算力的时候,我们刚才都是使用 FLOPS这个单位,即FLOP-seconds,其实使用 PFLOP-days更加直观。

以 Meta 年初开源的LLaMA-1模型为例。

假设参数65B,基于1.4T的tokens 数据集,使用了2048张A100 ,需要多长训练时间呢?

首先,计算训练该模型所需的算力:

C = rT ≈ 6*P*D

=6*65*109*1.4*1012

=546*10^21 FLOPS

然后,根据《A100白皮书》给出的BF16 Tensor Core的算力为312 TFLOPS,实际上算力单块A100的算力一般在130-180 TFLOPS之间,我们取中间值150,2048张卡的集群算力吞吐为:

r=2048*150*1012=300*1015 FLOPS,即300PFLOPS

最后,代入到上面提到的公式:C = rT,得出训练LLaMA-1模型所需时间为:

T=C/r=546*1021/(300*1015)

=1.82*10^6 seconds ≈ 21 days

这一计算结果和 LLaMA-1 在论文中得出的实际训练时间基本一致。

如果将A100换成H100,需要多长时间?

根据《H100白皮书》上给出BF16的性能参数是1979 TFLOPS(稀疏算力指标),实际稠密算力大约在1000 TFLOPS。对比A100,差不多有 3 倍的增长。

简单测算可得出结论:使用相同数量的H100卡训练LLaMA-1模型,训练时间可从21天减少到10天以内。

大模型目前在人工智能领域可以说正处于一种“炙手可热”的状态,吸引了很多人的关注和兴趣,也有很多新人小白想要学习入门大模型,却苦于没有大模型入门学习资料?

零基础入门AI大模型

今天贴心为大家准备好了一系列AI大模型资源,包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

有需要的小伙伴,可以点击下方链接免费领取【保证100%免费

点击领取 《AI大模型&人工智能&入门进阶学习资源包》

1.学习路线图

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

2.视频教程

网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。

在这里插入图片描述

在这里插入图片描述

(都打包成一块的了,不能一一展开,总共300多集)

3.技术文档和电子书

这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
在这里插入图片描述

4.LLM面试题和面经合集

这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

5.免费获取

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码或者点击以下链接都可以免费领取【保证100%免费】

点击领取 《AI大模型&人工智能&入门进阶学习资源包》

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值