面向大模型的存储加速方案

潇锐killer

已于 2025-01-17 13:42:30 修改

阅读量970

点赞数 23

CC 4.0 BY-SA版权

分类专栏：大数据文章标签：人工智能

于 2024-06-07 08:47:15 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangqiaowq/article/details/134369897

参考：面向大模型的存储加速方案设计和实践-百度开发者中心 (baidu.com)

对于一个典型的训练来说，可能迭代多轮 epoch。在每个 epoch 内，首先需要对数据集进行随机打散，然后将打散后的数据划分为若干 batch，每读取一个 batch 的数据，进行一次训练迭代。同时会周期性保存 checkpoint 用于故障快速恢复。

每一轮 epoch 的耗时都是由数据 shuffle、数据读取等待、checkpoint 和真正的训练时间相加得到。因此为了尽量提高训练效率，减少 GPU 的空闲，我们的主要优化就集中在三个思路：

优化 shuffle 过程，尽量将耗时控制在较小比例；

优化读取过程，尽量让每一轮读取数据的耗时小于计算耗时，这样就能让 I/O 时间被计算时间完全隐藏掉；

优化 checkpoint 过程，尽量缩短 checkpoint 耗时，减少训练中断时间。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。