一口气讲明白大模型：大模型入门，基本概念、技术发展史和业界应用

程序员辣条

于 2025-05-27 18:56:01 发布

阅读量590

点赞数 24

文章标签：学习大模型 AI产品经理人工智能 AI 大模型入门 AI大模型

本文链接：https://blog.csdn.net/m0_65555479/article/details/148263080

版权

目录

1 引言
2 大模型基本概念
- 2.1 大模型定义
- 2.2 大模型分类
3 LLM技术发展史
- 3.1 规则驱动
- 3.2 统计学习
- 3.3 深度学习
4 大模型业界应用
5 总结
6 相关阅读

1 引

这段时间没有更新，其实主要是因为我在筹备一个新的技术方向——大模型。面对一个新的领域，最难的往往是写下第一篇文章。经过差不多2个月时间的学习和整理，今天终于勉强把第一版内容梳理出来。

大模型无疑是当前最热门的话题之一。无论是响应公司高层的战略要求，还是出于对前沿技术的持续探索，我们在项目中都需要主动挖掘大模型的应用机会。既然大模型已成趋势，那就从现在开始，积极拥抱变化吧！

由于我之前对大模型了解不多，所以这篇文章主要作为入门分享，内容包括：大模型的概念和主要类别、技术发展历程，以及业界的一些典型应用案例。希望能为同样想要入门大模型的朋友们提供一些参考。

正文如下。

2 大模型基本概念

2.1 大模型定义

既然是入门，第一步当然要先明确什么是“大模型”。

DeepSeek 对“大模型”的定义如下：大模型（Large Models）是指拥有大量参数的机器学习模型，通常应用于处理复杂任务，如自然语言处理（NLP）、计算机视觉（CV）和语音识别等。这类模型通过在大规模数据集上的训练，能够捕捉数据中的复杂模式和关系，因此在各类任务中表现优异。

本质上，大模型仍然是机器学习模型，只是它们在训练完成后具备了更强的任务处理能力。为了实现这样的能力，大模型相比传统机器学习模型，需要更丰富的训练数据、更庞大的参数量和更强大的计算资源，相应的训练成本也更高。

以 DeepSeek V3 为例：

训练 Token 数（可理解为训练数据量）达到 14.8 万亿（14.8T），
模型参数量为 6710 亿（671B），
总训练时长为 278.8 万（2.788M）GPU 小时，
总训练成本高达 557.6 万美元。

相比之下，我们日常使用的机器学习模型，训练数据量通常只有亿级，参数量在万级，总训练时长也多为分钟级。大模型在规模和资源消耗方面，远远超出了传统机器学习模型的范畴。

2.2 大模型分类

市面上的大模型实在太多，令人眼花缭乱，想要全面了解几乎不可能。幸运的是，我偶然发现了一篇文章，已经对截至2025年2月的大模型进行了系统梳理，并且还在持续更新。为了便于大家理解，我在此基础上绘制了如下思维导图，其中国产大模型用“红框+!”做了特别标注。

从导图可以看出，大模型是通过语言创造内容。按照内容类型划分，可以将大模型分为四类：语言、图片、音频和视频。其中，大语言模型又可以细分为通用模型和推理模型。

从应用角度来看，大语言模型（Large Language Model, LLM）已经广泛融入我们的日常生活和工作。而其他类型的大模型，我个人此前并未实际体验过，于是尝试用“王者荣耀场景，安琪拉大战小卤蛋”作为输入进行测试，结果却一塌糊涂，可见这些方向还有很大的提升空间。

3 LLM技术发展史

在上一章中，我们已经对大模型的概念和分类有了初步了解。作为算法方向的从业者，接下来是时候系统梳理一下大模型背后的技术发展脉络了。鉴于目前LLM是发展最为成熟的方向，下面将重点围绕 LLM 的技术演进进行介绍。

从整体方案来看，LLM的发展大致可以分为三个阶段：

规则驱动阶段：以 ELIZA 为代表，通过人工设定规则和模板来实现简单的语言理解与生成。
统计学习阶段：以 n-gram 算法为代表，基于统计方法建模词语之间的概率关系，实现了更自然的文本生成。
深度学习阶段：以 GPT 为代表，采用神经网络和大规模数据进行端到端训练，极大提升了模型的理解和生成能力。

这三个阶段见证了大语言模型从手工规则到数据驱动、再到深度学习智能化的演进过程。

3.1 规则驱动

ELIZA 是一个早期的聊天机器人，由 MIT 人工智能实验室开发，历时三年（1964-1966），主要贡献者是 Joseph Weizenbaum。ELIZA 能够模拟心理咨询师与用户对话，虽然技术简单，但在当时引起了广泛关注。下面是一个经典对话示例，可以看到 ELIZA 的回复看似合理，甚至带有一定的安慰性：

人：Men are all alike.
ELIZA：IN WHAT WAY
人：They’re always bugging us about something or other.
ELIZA：CAN YOU THINK OF A SPECIFIC EXAMPLE
人：Well my boyfriend made me come here.
ELIZA：YOUR BOYFRIEND MADE YOU COME HERE
人：He says I’m depressed much of the time.
ELIZA：I AM SORRY TO HEAR YOU ARE DEPRESSED

ELIZA 背后的核心原理其实是基于规则的匹配和转换。简单来说，就是通过一系列预设的模式，将用户输入映射为相应的回复。例如：

(0 YOU 0 ME)  # [pattern]
(1  2  3  4)  # [index]
->
(WHAT MAKES YOU THINK I 3 YOU)  # [transform]

意思是，如果用户输入符合“A YOU B ME”这样的模式，ELIZA 就会生成“WHAT MAKES YOU THINK I B YOU”这样的回复。比如：

用户输入：You hate me
ELIZA 回复：WHAT MAKES YOU THINK I HATE YOU

基于规则的方法整体上显得比较刻板，开发和维护都非常耗时，且难以应对语言的多样性和复杂语境，覆盖能力有限。这也是后续统计学习方法和深度学习方法不断发展的原因之一。

3.2 统计学习

在 n-gram 算法中，首先会将语言内容建模为由一系列词元（Token）组成的序列数据。例如，原句：

这课好难

可以分解为词元序列：

{这, 课, 好, 难}

n-gram 算法的核心思想是：通过统计语料库中词元序列的出现频率，估计在给定前 n-1 个词元的情况下，下一个词元出现的概率，并选择概率最大的词元作为预测结果。

举个例子，假设前 n-1 个词元为：

{我, 考, 了, 99, 分, 这, 课, 好}

通过统计语料库发现，下一个词元为 {难} 的概率为 0.1，为 {简单} 的概率为 0.9，那么 n-gram 算法最终会返回概率更高的 {简单}，即：

①这课好难
②这课好简单

最终会选择“这课好简单”。

接下来，再举一个例子，说明如何通过语料库计算词元序列出现的概率。假设语料库如下：

序号	语料库
1	脖子长是长颈鹿最醒目的特征之一。
2	脖子长使得长颈鹿看起来非常优雅，并为其在获取食物带来便利。
3	有了长脖子的加持，长颈鹿可以观察到隐蔽的角落里发生的事情。
4	长颈鹿脖子和人类脖子一样，只有七节颈椎，也容易患颈椎病。
5	如同长颈鹿脖子由短变长的进化历程一样，语言模型在不断进化。

如果我们要计算“{长颈鹿, 脖子}”这个词元序列出现的概率，计算公式如下：

长颈鹿脖子长颈鹿脖子长颈鹿

其中，表示该词元或词元序列在语料库中出现的次数。

如果我们要计算“{脖子, 长}”这个词元序列出现的概率，计算公式如下：

脖子长脖子长脖子

如果我们要计算“{长颈鹿, 脖子, 长}”这个词元序列出现的概率，并设定n=1，计算公式如下：

长颈鹿脖子长长颈鹿脖子脖子长

总体来看，当文本较短时，n-gram 算法的计算效率较高，能够较好地建模词元之间的关系。但对于较长的句子或篇章，n-gram 算法很难捕捉长距离依赖和整体语义，表现会受到一定限制。

3.3 深度学习

GPT 的问世让大模型真正走进大众视野，但在此之前，底层技术经历了多个里程碑式的发展，包括 RNN（递归神经网络）、LSTM（长短时记忆网络）和 Transformer。GPT 爆火之后，OpenAI 又推出了具备更强推理能力的 OpenAI-o1 模型。

3.3.1 RNN

下图左侧展示的是经典的 RNN 结构。RNN 以序列方式输入文本，每一步的输出（如）不仅依赖当前输入（），还会受到前面所有输入的影响。右侧是 RNN 的一种变体，虽然结构略有不同，但本质上依然是顺序输入、依赖历史信息。

与 n-gram 相比，RNN 理论上能够捕捉更长距离的依赖关系，因此具备更广阔的应用前景。但在实际训练中，RNN 仍然难以处理长距离依赖。这是因为 RNN 在参数优化时高度依赖梯度传递：如果梯度持续变小，最终会消失（梯度消失）；如果持续变大，则会爆炸（梯度爆炸），导致模型难以收敛。

3.3.2 LSTM

为了解决 RNN 的梯度消失和爆炸问题，LSTM应运而生。相较于 RNN，LSTM 对每个隐藏状态进行了扩展，引入了四个核心模块：

遗忘门（forget gate）：决定需要丢弃哪些信息，
输入门（input gate）：决定存储哪些新信息，
输出门（output gate）：决定输出哪些信息，
记忆单元（memory cell）：用于长期记忆的存储。

为了便于理解 RNN 和 LSTM 的差异，可以做一个类比：RNN 像一个拾荒者，什么信息都不加区分地收集，而 LSTM 更像一个贵族，只保留对自己有价值的信息，主动筛选和遗忘。

3.3.3 Transformer

如果说 LSTM 解决了 RNN 的梯度问题，那么 Transformer 则解决了RNN计算效率低的问题。

RNN 的每一步计算都依赖前面的结果，只能串行进行，效率较低。而 Transformer 引入了自注意力机制，使得序列中所有位置的输出都可以并行计算，极大提升了训练和推理效率。

用公式表达，RNN 的计算方式为：

而 Transformer 的输出为：

3.3.4 GPT

从能力上看，Transformer 已经是非常强大的学习框架，可以说是“万能的锤子”，几乎可以适应各种任务。

GPT（Generative Pre-trained Transformer）就是基于 Transformer 架构，主要预测序列中的下一个词。例如，对于“我喜欢*”，GPT 需要预测 * 处应该填什么。

作为对比，BERT 也是基于 Transformer，但它预测的是句子中被随机掩盖（mask）的词元。例如，“我*你”，BERT 需要预测 * 处的词。

事实证明，GPT 的眼光非常独到。即使如此，从 2018 年 6 月第一版发布，到 2022 年 11 月 ChatGPT 引爆全球，也历经了 4 年、4个版本的持续迭代和完善。

3.3.5 OpenAI-o1

ChatGPT 爆火后，母公司OpenAI 于 2024 年 12 月发布了 OpenAI-o1 模型，其核心创新是引入了“思维链”（Chain of Thought, CoT）机制，显著增强了模型的推理能力。

如果用《思考，快与慢》中的观点来类比 GPT 系列与 OpenAI-o1 的差异：GPT 更像“系统1”，依赖经验和直觉，反应迅速但有时不够准确；而 OpenAI-o1 更像“系统2”，通过有条理的分析和推理，虽然慢一些，但更可靠，更擅长解决复杂问题。

一个有力的例证是：针对2024 年美国数学奥林匹克（AIME）中的15 道高难度数学题，GPT-4o（2024年5月发布）仅答对 2 题，而 OpenAI-o1 答对了 13 题，成绩已可进入美国前 500 名学生之列，展现出卓越的推理能力。

4 大模型业界应用

最后，我们再来看一下大模型在业界的应用情况。

关于这方面的市场调研报告非常多，偶然间发现了这张图，总结得相对全面，值得参考：

在《中国信通院华东分院》公众号（主页回复“2024案例集”）发布的《2024大模型典型示范应用案例集》中，汇总了99个大模型在业界的具体应用案例。其中，45个属于“行业赋能”，46个属于“智能应用”，涵盖了新型工业化、能源、医疗和政务等多个重要领域。总体来看，这些案例中的应用功能基本都可以在上面那张图上找到对应内容。下表列举了其中的3个具体案例，供参考：

案例名称	公司	应用场景	业务效益	应用功能归类
“珠玑”大模型在搜推场景的赋能应用	小红书	对新笔记进行内容总结、特征提取，帮助推荐系统对新笔记进行精准推送	新笔记 0-1 互动数提升10.8%	总结
支小宝 2.0- 智能金融助理	蚂蚁财富	为客户获取金融信息、完成投资分析、量身定制理财和保险方案	资产配置的合理度提升 5%，频繁交易比例下降 60%	交互、分析
文修大模型赋能出版行业新未来	蜜度	校对出版物中存在的文字标点差错、知识性差错以及内容导向风险	日均审稿 100 万篇、审校字数超 2 亿	修改