大模型之一：大语言模型预训练的过程

_刘文凯_

于 2024-04-13 22:10:41 发布

阅读量769

点赞数 3

CC 4.0 BY-SA版权

文章标签：语言模型人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_24211837/article/details/137726018

本文详细介绍了大语言模型的训练过程，包括预训练的知识获取、增量预训练策略（如使用基座模型和增量式数据）、训练框架选择（如3D并行和张量并行），以及关键步骤如数据准备、模型调整和测试。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

介绍

大语言模型的一般训练过程（3步）：1、预训练学知识，2、指令微调学格式，3、强化学习对齐人类偏好

预训练

所以要想大模型有领域知识，得增量预训练（靠指令微调记知识不靠谱，不是几十w条数据能做到的）

1. 准备工作

准备基座模型->收集数据->数据清洗

2. 增量预训练所用训练框架

超大规模训练：选用 3D 并行，Megatron-Deepspeed拥有多个成功案例
少量节点训练：选用张量并行，但张量并行只有在 nvlink 环境下才会起正向作用，但提升也不会太明显。
少量卡训练：如果资源特别少，显存怎么也不够，可以使用 LoRA 进行增量预训练。

3. 增量预训练

先用大规模通用语料预训练，再用小规模领域语料二次训练
直接进行大规模领域语料预训练
通用语料比例混合领域语料同时训练

4. 流程

数据预处理：参考 LLaMA 的预训练长度，也把数据处理成2048长度（如果不够，做补全）。
分词器：如果使用 LLaMA 可能需要添加中文词表，目前有不少人做了相关工作，当然也可以自己添加自己需要的词表。
原始模型：各家框架的模型层名不太一样，训练时可能需要做一些调整，在预训练时尽量选择基座模型，不选 Chat 模型。
训练模型：跑通只是第一步，根据训练情况反复调整比较重要。
模型转换：不同框架的checkpoint格式不同，还会根据并行度分成很多个文件。
模型测试：简单测试下续写能力，验证下模型是否正常。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

_刘文凯_ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。