当 ChatGPT 流畅对话、文心一言生成文案、LLaMA 解决专业问题时,你是否曾好奇:这些能 “思考” 的大语言模型(LLM)是如何被训练出来的?很多人觉得 “训练大模型” 是遥不可及的高端技术,需要深厚的数学功底、海量的算力资源和顶尖的科研团队。但事实上,随着开源工具的普及和技术门槛的降低,零基础也能一步步掌握大语言模型的训练逻辑,从数据准备到模型微调,最终实现属于自己的 AI 应用。
本文将以 “从 0 到 1” 为脉络,用通俗的语言拆解大语言模型训练的全流程:从最基础的概念认知,到数据处理、模型选择、训练实施、调优技巧,再到最终部署落地。无需专业背景,跟着步骤走,你也能从 “AI 旁观者” 进阶为 “大模型实践者”,在这场 AI 浪潮中占据一席之地。
1、 什么是大语言模型?
大语言模型(后续简称大模型)可以看作是一种强大的计算机程序或者应用,它能够处理复杂的任务,比如理解和生成语言、识别图像、翻译文本等。
但大模型又不同于我们日常使用的传统程序与应用,传统程序的输入与输出(回复)就好比计算器一样,输入1+1,输出一定是2,重复一万次也是如此。而大模型的输出物(文字、图像等)具有一定的随机性,即使输入完全一样,每次的输出(回复)都有差别。
在这一点上,大模型更接近人。想象一下我们问一个人你今天感觉怎样?他的回答在一天内的不同时段随着自己的心情变化会有所差别,大模型也会变。即使我们问一道答案确定的数学题,人类可能因为劳累或一时大意而回答错,大模型一样也会出错。
这是deepseek最新V3模型的回复,答案与分析过程自相矛盾,很显然它此刻有点“累” :)
“把大模型当人看”,而不是当作一个冷冰冰的程序与应用,更有助于理解后续的内容。
2、 大模型是如何工作的?
答案是:不知道,说不清。
好比人类是怎样写出一篇妙笔生花的文章,又是如何解决一道数学题?我们只能看见具体的过程,但并不清楚人脑内的神经元是如何工作的,对于大模型也是一样。
下面是一张经典机器学习的教学图,通过历史上的房价数据总结出波士顿的房价规律,从而可以推测出某一所房子的价值。
根据以上信息,我们可通过一个一元一次式来预测波士顿房价与面积的关系,例如:
房价 = 2000 * 面积 + 10000
这个公式通过2个固定参数2000和10000,处理一个输入变量面积,产生一个输出变量房价。
而大模型可以看做是一个可以处理成千上万输入变量、具有几千亿固定参数,可生成上万输出变量的复杂公式(神经网络)。当我们询问大模型具体的问题,相当于把问题逐字(更确切的说是逐token,token是一种大模型可以理解的技术字符)的输入这个几千亿参数的神经网络进行计算,从而得出结果,也就是大模型的回复。
简单来说,我们可以把大模型看做一个超级复杂的公式,这个公式具有几千亿的参数,并且这个公式在输入不变的情况下,计算结果(回复)却具有随机性。 那么大模型是如何掌握现实世界的知识,能够非常准确的回答包罗万象的问题的呢?
3、如何训练一个大模型
大模型的训练过程,分为三步:
-
预训练:用现实世界的信息去训练神经网络各项参数,尽可能的去理解现实世界,得到一个基础模型。相当于人类学习过程中的啃书本,博览群书。
-
后训练之监督微调:由人类书写问题与解答的范例文本,并用这些文本再一次训练基础模型。相当于人类学习过程中的看例题,或者看老师在黑板上讲解具体题目的解题步骤。
-
后训练之强化学习:针对各类问题,由大模型自己尝试数以万计的解题路径,找到可以得出正确答案的路径。 相当于人类学习过程中的刷题。
注:第2步与第3步,不同的大模型训练顺序可能不一样,GPT4是先2后3,deepseek-R1是先3后2再3。
3.1 预训练(Pre-training)
这个阶段好比一个人类超级天才,把当前世界上所能找到的书籍全部读了一遍,并且把知识“记忆”在了大脑里。注意这里用了“记忆”而不是“存储”,区别在于“存储”相当于搜集了所有的书籍,放在了仓库里;“记忆”则是通读了一遍,记在了脑子里。
训练大模型时,首先会把互联网上能找到的信息都搜集起来,这些信息需要按照一定的格式整理并存储,并且过滤掉不健康的信息。就如人类学习的知识要整理成册,并且审核内容,不能给人类幼崽读黄赌毒一类的有害书籍。
hugging face的FineWeb项目提供了这类训练信息,当然每一家大模型公司都有自己的训练用信息与数据,基本没有对外公开的。
FineWeb搜集了多少文本数据?44TB!什么概念呢,以汉字为例(当然FineWeb搜集的是英文资料),相当于十五万亿个汉字的信息!一个人一辈子的阅读量撑死几亿个汉字(大多数人远远达不到),按一辈子看五亿汉字计算,十五万亿汉字相当于三万人一辈子的阅读量,并且这些知识涵盖了方方面面,三百六十度无死角。
有了这些知识信息,接下来开始训练神经网络。初始时,神经网络里的几千亿参数都是随机的,训练数据流入神经网络计算出了输出信息,然后把输出信息与正确信息相比较从而计算偏差;接着,根据算法调整神经网络里的参数,使得输出信息与正确信息的偏差越来越小。好比一个人背书,先读一遍,然后边背边和书本比较,直到所背的内容与书本内容基本一致。
要把44TB的内容记得大差不差,需要上万张善于并行计算的高端算力卡(以英伟达生产的产品为代表)连续不断地训练几十天,直到最后葵花宝典练成,得到了一个几千亿参数的神经网络,称为基础模型(基模型,base model)。这一步是大模型训练花费最大,时间最长的一步。
预训练好比一个超级天才在图书馆里孜孜不倦的把人类积累的所有书籍读完,并且大差不差的记住了所有的知识点。这里很关键的一点请注意,这个人记住的知识都不是精确的,而是模糊的、大差不差的。
从这种意义上来说,基础模型以及最终训练完的大模型可以看做一个人类所有知识的有损压缩包(知识库),而知识点就存储在大模型上千亿的参数中。
3.2 后训练(Post-training)- 监督微调
通过预训练获得的基模型还不能与人类正常对话,需要通过后训练让基模型学会与人类对话。
如何做到这一步呢?专业术语称作Supervised Fine-Tuning(SFT),即监督微调。可以这样理解,超级天才读完图书管理所有的书籍后,只是模糊掌握了知识点,但并不知道怎么使用。于是有一个导师把如何利用知识回答问题做成了详细的示例文本,并教给了这个超级天才,天才的大脑又进化了。
这个通过旁人生成的示例文本对模型参数进行调整的步骤,称为有监督下(人类监督)的微小调整,微小的意思是相对于预训练来说只需要少量的计算资源与时间。
由人类导师制作的问答示范文本同样涵盖了方方面面的知识领域,而且按照严格的标准撰写,这需要花费大量的人力与时间。示范文本质量的高低,决定了SFT后模型的质量。试想一个吊儿郎当的半吊子导师制作的课件与教材,教出来的学生必然不怎么样。所以人类学习时老师很重要,大模型训练时SFT同样也很重要。
由于SFT使用的示范文本生成需要大量人力,也有人想到了偷懒的方法——用大模型来生成示范文本,于是有了UltraChat这样的项目。
3.3 后训练(Post-training)- 强化学习
如果拿一本教材里的内容来做类比:
-
预训练:相当于学习教材里的阐述性内容,例如定理与公理,以及对应的解释。
-
监督微调:相当于学习教材里的例题,包含问题、解题过程与最终答案。
3. 强化学习:相当于做教材里的习题,有问题与最终答案,学生需要自己尝试找到解题的方法。英文为Reinforcement Learning (RL)。
在解题的过程中,学生通常需要尝试多个不同的解题思路来得到正确的答案,且得到正确答案的方法并不是唯一的。
同样的,大模型在强化学习过程中不断地调整参数,根据问题去尝试生成最终答案,并与正确答案比较。在这一过程中,能生成正确答案的参数被不断采纳与优化,从而使得模型越来越优秀。
同样,一个人类学习者通过不断地刷题,训练大脑掌握了正确的解题思路与方法。在以后面对考试或者新的问题出现时,大脑自然而然的会通过学习到的方法来解决问题。习题做得越多,尝试的方法越多,正确解决问题的能力越强。
而一个不眠不休、运算速度极快的大模型,其效率是人类无法比拟的。面对一个问题,大模型会短时间内尝试上万种不同的参数组合以发现最优解,从而不断逼近最优的参数组合。通过这种不需要人类干预的自我学习方式一步步增强,这就是强化学习的本质。
深度求索的Deepseek-R1模型,也就是撼动OpenAI霸主地位的模型便主要是通过这种方法训练出来的。在此之前的各类大模型,主要依靠监督微调进行训练,再辅以强化学习。
一点补充,下两段可跳过。
对于有明确答案的理科题,模型可以通过与正确答案比对来找到最佳的方法(不同参数组合)。但面对开放性问题,例如写一篇文章这种没有标准答案的问题,如何判断大模型回复的好坏?如果人类介入判断文章好坏的话,假设有1000个文章撰写类问题,每个问题做1000次迭代循环,每次迭代循环尝试1000条路径,意味着有一亿篇文章需要人类阅读后判断,这不现实。
于是有人提出了RLHF (Reinforcement Learning from Human Feedback),即基于人类反馈的强化学习。先在一亿篇文章里挑出5000篇让人类阅读,并根据文章质量排定好坏次序,然后训练一个小模型模拟人类对于文章质量好坏的判断,最后把一亿篇文章的质量都交给这个小模型去评判并反馈给大模型。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。