【科普】大模型是怎么“被训练出来”的？——从数据到能力的全过程拆解

最新推荐文章于 2025-06-17 07:15:18 发布

大模型研究院

最新推荐文章于 2025-06-17 07:15:18 发布

阅读量995

点赞数 30

文章标签：人工智能机器学习深度学习 prompt 大模型数据库大模型学习

本文链接：https://blog.csdn.net/l01011_/article/details/148683868

版权

我们从大模型的生命周期视角出发，聚焦“训练流程”本身，大模型不是一开始就聪明的，它要经历：

数据预处理 → 预训练 → 微调 → 对齐训练 → 推理部署

这是一条完整的“大模型生命周期”。

从原始数据，到可以对话、写代码、看图说话的AI中控大脑，每一步都花费巨大心血，也充满工程与技术细节。

所以从这期开始，我们将进入模型的“打造过程”，从源头讲起：

本期重点：拆解大模型训练的4个阶段——从原始数据变成AI能力

🧩 本期核心结构

我们将模型训练流程拆解为 5 个关键阶段：

5个关键阶段

阶段	定义	是否训练	说明
预处理	清洗、筛选、切分原始数据	否	为后续训练做准备
预训练	在大规模通用数据上训练基础能力网络	是	通用知识、语言、常识的“打底”
微调	在特定任务或场景上强化能力	是	贴近具体应用，如写代码、问答等
对齐	用人类反馈或规则约束模型行为	是	防止胡说、避免越界、对齐价值观等
推理（部署）	将模型用于实际应用（如对话、搜索、生成）	否	模型不再学习，只做“输出”

我们就按这个流程，从头到尾，拆解大模型是如何一步步变得聪明起来的。

1、预处理——“知识摄入”前的清洗打底

你可能听过一句话：“AI就是靠喂数据长大的。”

但问题来了：你真的可以随便把网络上爬来的网页、聊天记录、图片文件一股脑地塞进模型里吗？

当然不行。就像人吃饭前要择菜洗菜，模型在“吃数据”之前，也必须要经历一整套“预处理流程”——这是大模型训练真正意义上的第一步。

1.1、什么是预处理（Preprocessing）？

预处理，指的是把原始数据清洗、整理、标准化为模型可理解的格式的过程。它是模型训练之前最基础也最重要的准备工作之一。

为什么重要？想象你要教一个孩子认字，你总不能把一个破损的、字迹模糊的生字卡片递给他，还要求他准确学习吧？

大模型也一样：原始数据往往非常杂乱、冗余、格式不统一，需要经过处理，变成“干净、规范、表达清晰”的输入，才有可能有效训练模型。

1.2、预处理主要做什么？

通常来说，预处理的流程包括以下几个核心步骤：

① 数据清洗： 去掉垃圾内容，剔除噪声数据。

包括：

删除乱码、重复、无意义内容（如网页模板、广告脚本）
过滤脏话、有害内容或法律风险数据
去除格式混乱、解析失败的数据行

这一步是为了确保模型不会学到无意义甚至有害的东西。

② 数据切分与标注： 将长文本拆分为适合模型处理的“小段落”，并为其添加结构信息。

例如：

把小说按段落、句子分开
对每段文本添加“文档类型”“语言”“来源”等元信息（metadata）
在图像或多模态中标注出“物体边界”“图文对齐关系”等

这一步非常关键，特别是对于多模态或任务导向的模型。

③ 数据规范化： 把所有数据转换成统一格式，方便模型输入。

如：

把文本统一成 UTF-8 编码
把图像转换为固定尺寸、通道数
把视频抽帧、音频转频谱图等

④ Tokenization（分词与编码）： 这是大模型预处理中最重要的一步。现代语言模型并不是直接“读取文本”，而是将文本拆解成一个个Token（符号单元） 后输入模型中。

例如：

句子：“大模型好厉害！”

→ 可能被拆成：[‘大’, ‘模型’, ‘好’, ‘厉’, ‘害’, ‘!’]

→ 再转换成数字ID：[1023, 5089, 2008, 3009, 1159, 34]

不同模型使用不同的 Tokenizer（如 BPE、SentencePiece、tiktoken 等），但目的相同：把文本“转化成模型能理解的数字语言”。

1.3、为什么预处理非常关键？

因为它直接影响三个核心问题：

模型吃进去的东西是不是干净的？ 如果原始数据质量差、脏话多、格式乱，模型很容易“学坏”。
模型能不能理解你给它的输入？ 没有分词、格式混乱、图文不匹配都会影响理解与生成效果。
模型未来能不能泛化到其他任务？ 如果预处理过窄或存在偏见，训练出的模型就容易“思想僵化”。

📌 举个例子：

GPT 系列模型在训练前会对上千TB的数据进行极其细致的筛选和分段，只选取其中高质量的一部分作为训练集。 OpenAI 曾专门设计了一整套数据过滤 pipeline（如WebGPT Filter），只为了确保预处理不出错。

💡总结一句话：

预处理就是“教AI识字”的过程。

它不决定模型有多聪明，但决定模型能不能“听懂你说话”。

预处理做得好，模型训练事半功倍；预处理做不好，模型再大也难堪大用。

2、预训练——让模型成为“有常识的大白纸”

你可以把预训练（Pretraining） ，想象成：

在模型“正式上岗”前，先让它学一遍“世界的基本常识”。

就像一个小学生在选科之前，要先上几年语数英、美术体育；模型也一样，要先进行大规模的、通用的基础训练，打下认知世界的底子——这就是预训练的任务。

2.1、什么是预训练（Pretraining）？

预训练是指在大量通用数据（如网页文本、图书、代码、图片等）上，对模型进行无监督或自监督学习，让它学会如何理解语言结构、逻辑推理、上下文信息等。

通俗理解：模型刚出生时是一张“空白的大纸”。

你拿着全球最丰富的百科全书，一页一页讲给它听，让它慢慢学会语言、记住一些规律，拥有泛化常识。

但它还不知道你要它干嘛（比如写代码还是做客服）——这得等微调阶段再说。

2.2、预训练的典型目标任务有哪些？

预训练不是“死记硬背”，而是通过设计一些“自我学习任务”来训练模型。

下面是几种最常见的预训练目标：

① 自回归语言建模（Autoregressive LM）

任务：预测下一个词

像 GPT 系列模型就是典型代表。

比如：

输入：“我今天心情很好，想去”
目标输出：“公园”

模型通过大量类似的例子，不断训练如何“猜出下一个词”。

这种方式特别适合生成任务，如写作、对话、讲故事等。

② 掩码语言建模（Masked LM）

任务：预测句子中的被遮挡词

比如 BERT 的训练任务是：

输入：“我今天[MASK]很好”
目标输出：“心情”

模型学会填空 → 更擅长理解语义、挖掘上下文之间的关系。

这类模型通常更擅长“理解任务”，如分类、问答、阅读理解等。

③ 多模态对比学习（Contrastive Learning）

在图文类模型如 CLIP、BLIP 中，预训练任务可能是：

给出一张图片和若干段描述，判断哪一段才是正确的描述。

也就是“把图和文配对”，帮助模型建立跨模态的理解能力。

④ 代码、音频、视频的预训练

OpenAI、Google 等机构也探索了很多跨领域模型，如：

在代码上预训练 → Copilot、CodeLlama 等
在语音上预训练 → Whisper
在视频上预训练 → Gemini、GPT-4o 等

它们用的是类似的机制：给模型很多数据，自主构建预测任务，让它“自己学”。

2.3、预训练能让模型获得什么？

简而言之，预训练让模型拥有了：

能力	描述
语言常识	理解语法结构、词语搭配、上下文逻辑
知识结构	掌握基础世界知识（如“猫是动物”）
模式记忆	记住常见问题和回答的范式
表达能力	学会组织、生成自然语言

它不是“教模型做某件事”，而是“把模型变聪明”。

所以它才叫“通用预训练模型”（Foundation Model），意思是这个阶段是“打地基”，为所有后续任务准备好通用能力。

🧪 真实案例参考

OpenAI 的 GPT-3 是在 45TB 原始文本中筛选后的 570GB 高质量文本上进行预训练的，包含书籍、维基百科、Reddit 评论、代码等。

它用了数千块 GPU，在这个阶段就花了几百万美元训练出能写文章、生成代码、翻译语言的大模型基础。

❗预训练 ≠ 学完了

注意：模型虽然变聪明了，但此时它：

不知道你要它具体做什么任务
对任务场景没有适应
输出也未必符合人类偏好

就像一个博览群书但没上过岗的“新员工”——需要后续微调与对齐，才能真正上手工作。

💡 总结一句话：

预训练，是“让模型知道世界是什么样”的过程。

它是模型变强的根基，是所有后续学习的前提。

3、微调——从“通用大脑”到“专业人才”

还记得我们说过，预训练就像让模型成为一个“博览群书但还没上岗的聪明人”吗？

但如果你希望它变成客服专家、法律助手、写作教练，光靠“通用能力”可不行。

于是，微调（Fine-tuning） 这一步就来了：

我们要带着模型走进具体的工作场景，传授它“干活的本领”。

3.1、什么是微调（Fine-tuning）？

微调指的是：在预训练模型的基础上，继续使用小规模、高质量的专用数据，对其进行有监督的训练，让它学会特定任务。

类比一下：

预训练是“九年义务教育” → 通用能力。
微调是“考研读博+实习就业” → 专业能力。

在这一阶段，模型终于知道你要它干嘛了。

3.2、微调的目标任务通常有哪些？

微调的方式很多，取决于你希望模型掌握哪类技能。以下是几种常见的微调目标：

✅ 1. 任务指令学习（Instruction Tuning）

用“任务指令 + 正确输出”来训练模型。

例子：

输入：请将下面文字翻译成英文：“你好，世界。”
输出：Hello, world.

通过成千上万个类似的问答指令对，模型学会了如何根据“提示”完成具体任务。

代表：OpenAI 的 InstructGPT、Google 的 T5

✅ 2. 多轮对话微调（Dialog Fine-tuning）

训练模型理解上下文对话结构，更自然地回答问题。

例子：

用户：你是谁？
模型：我是一个AI语言模型，能帮你完成各种任务。
用户：你能帮我写邮件吗？
模型：当然可以，请问邮件主题是什么？

这类训练帮助模型更像一个“贴心助手”。

代表：ChatGPT 微调过程

✅ 3. 特定领域微调（Domain Adaptation）

用法律、医疗、金融等领域的语料，对模型“定向强化”。

这样你可以得到：

法律问答助手（LawGPT）
医疗诊断模型（MedGPT）
金融分析助手（FinGPT）

例如，LegalBERT 就是在 BERT 基础上，用大量法律文件微调而来，提升了法律语言理解能力。

✅ 4. 编码微调（Code Fine-tuning）

如果你希望模型写代码、理解语法错误，就得用代码语料进一步训练。

GitHub Copilot 就是典型代表，背后的模型 Codex 就在 GPT 基础上做了大量代码微调。

3.3、微调的常见技术方案

🔁 全参数微调（Full Fine-tuning）

直接微调整个模型的所有参数。效果最好，但开销大，容易过拟合。

🧷 参数高效微调（PEFT，如 LoRA、Adapter）

只更新小部分参数，保留大模型结构，训练快，成本低，非常适合企业部署。

3.4、微调 vs 提示工程（Prompting）？

对比纬度	微调	说明
本质	改“模型”	改“输入”
成本	训练成本高	几乎为零
可控性	精准调整输出	倚赖提示技巧
场景	高精度场景	快速试验场景

两者并不冲突，很多场景会“提示 + 微调”配合使用。

3.5、为什么微调很关键？

预训练模型虽然强大，但：

它的知识广而泛，不一定贴合你的行业
它输出方式不一定符合你要求（比如风格、格式）
它在某些任务上（如医疗问答）表现可能较差

通过微调，可以让模型：

获得	具体能力
特定技能	翻译、问答、代码生成等
场景意识	更好地理解你的工作语境
风格适配	输出更符合品牌风格或产品要求

3.6、真实案例参考：DeepSeek 如何通过微调走向实用？

以 DeepSeek 系列为例，它的演化过程可以清晰看到微调的重要性：

DeepSeek-V1 是基于大规模中文数据预训练的通用模型，语言理解能力强，但回答风格还偏“机器人”。

后续推出的 DeepSeek V2，就进行了系统性的指令微调（Instruction Tuning）和对话微调（Dialog Fine-tuning），模型开始能“听懂人话”、有对话节奏感。

再之后，DeepSeek V3 融入了多轮对话记忆、对话风格控制等能力，甚至在 2024 年的中文评测中表现优于很多商业闭源模型。

这一过程中，微调扮演的角色就是：

把一个“会说话的语言模型”，变成“听得懂人话的助手”。

🧠 总结一句话：

微调，是“让模型知道你想让它干什么”的过程。

它是通用智能走向实用的关键步骤。

4、对齐——让模型“说话更合人意”

当模型完成了预训练和微调后，虽然已经具备了强大的理解和生成能力，但它可能并不总是“按人类预期回答”。比如：

模型可能提供看似合理但实际错误的答案（幻觉 hallucination）
可能输出不当内容（如歧视性语言）
无法判断何时该说“不知道”

这时候，就需要“对齐”这一步——让模型的行为更符合人类价值和预期。

4.1、什么是“对齐”？

对齐（Alignment） 指的是在模型已有能力的基础上，对输出行为进行优化，使其：

更安全：避免有害内容、攻击性语言
更可靠：尽量减少错误或胡编的回答
更有用：理解用户意图，提供相关且准确的信息

这不是“再教模型新知识”，而是教它怎么表达、怎么回应用户的问题更合适。

可以理解为：

微调是教模型“该说什么”，对齐是教模型“怎么说”。

4.2、怎么做对齐？——用人类反馈来“打磨模型个性”

目前对齐最主流的方法是 RLHF（Reinforcement Learning from Human Feedback），即：从人类反馈中强化学习。

流程可以简化为三步：

收集对话数据让人工标注员与模型对话，生成多个回答，选择其中更合人类预期的一项（比如“这句话听起来更自然”）。
训练奖励模型（Reward Model） 用这些人工偏好训练一个“评价器”，让模型自己判断哪个回答更好。
用强化学习优化主模型通过强化学习算法（如PPO），不断让模型尝试输出、获得反馈、调整策略。

除了RLHF，还有：

规则过滤器（内容安全模块）
行为控制指令（System Prompt）
监督微调（SFT） + 多轮人类纠偏

对齐不是让模型“不能说话”，而是教它“怎么在合适的边界内表达”。

最终结果是：模型在不损失原有能力的基础上，说话更像一个“有教养、有逻辑、有责任感”的AI助手。

4.3、举个例子：DeepSeek 的对齐实践

DeepSeek 采用了类似 GPT 的对齐策略：

在预训练后，增加了基于中文用户习惯的指令微调阶段
并结合人工评估结果，对模型输出风格进行了多轮 RLHF 调整

这使得 DeepSeek 在处理中文任务中，更符合中文用户的表达偏好与问答逻辑

用户可能并不知道模型背后经历了多少“性格修炼”，但使用时会感觉：

“这个模型怎么越来越懂我了？”

✳️ 对齐不是一次性完成，而是持续演进

需要强调的是，对齐不是做完一次就结束了，而是：

模型越强，风险越大，对齐就越重要
不同国家/文化/平台，对齐的标准也不同

因此需要 长期迭代优化 + 人工持续参与评估

未来的对齐可能不再只是“防止出错”，而是更深层的：

能否理解人类意图变化？
能否主动纠正模糊提问？
能否拒绝无理要求又不显生硬？

总结：从模型训练看AI“学成记”

今天我们从工程视角完整拆解了“大模型是怎么训练出来的”，梳理了大语言模型在正式使用前经历的完整流程。四个关键阶段，像是在逐步“养成一个AI”：

阶段	核心目标	类比角色
预处理	清洗与组织训练数据	收集知识，编教材
预训练	构建通用语言能力	打好基础，读万卷书
微调	聚焦特定任务能力	专业训练，定向学习
对齐	优化输出行为，合人预期	教“为人处世”，磨合风格

希望这期能帮助你真正理解那些经常听到但模糊不清的概念。

5、如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】