目 录
-
1 引言
-
2 大模型基本概念
-
2.1 大模型定义
-
2.2 大模型分类
-
-
3 LLM技术发展史
-
3.1 规则驱动
-
3.2 统计学习
-
3.3 深度学习
-
-
4 大模型业界应用
-
5 总结
-
6 相关阅读
1 引
这段时间没有更新,其实主要是因为我在筹备一个新的技术方向——大模型。面对一个新的领域,最难的往往是写下第一篇文章。经过差不多2个月时间的学习和整理,今天终于勉强把第一版内容梳理出来。
大模型无疑是当前最热门的话题之一。无论是响应公司高层的战略要求,还是出于对前沿技术的持续探索,我们在项目中都需要主动挖掘大模型的应用机会。既然大模型已成趋势,那就从现在开始,积极拥抱变化吧!
由于我之前对大模型了解不多,所以这篇文章主要作为入门分享,内容包括:大模型的概念和主要类别、技术发展历程,以及业界的一些典型应用案例。希望能为同样想要入门大模型的朋友们提供一些参考。
正文如下。
2 大模型基本概念
2.1 大模型定义
既然是入门,第一步当然要先明确什么是“大模型”。
DeepSeek 对“大模型”的定义如下:大模型(Large Models)是指拥有大量参数的机器学习模型,通常应用于处理复杂任务,如自然语言处理(NLP)、计算机视觉(CV)和语音识别等。这类模型通过在大规模数据集上的训练,能够捕捉数据中的复杂模式和关系,因此在各类任务中表现优异。
本质上,大模型仍然是机器学习模型,只是它们在训练完成后具备了更强的任务处理能力。为了实现这样的能力,大模型相比传统机器学习模型,需要更丰富的训练数据、更庞大的参数量和更强大的计算资源,相应的训练成本也更高。
以 DeepSeek V3 为例:
-
训练 Token 数(可理解为训练数据量)达到 14.8 万亿(14.8T),
-
模型参数量为 6710 亿(671B),
-
总训练时长为 278.8 万(2.788M)GPU 小时,
-
总训练成本高达 557.6 万美元。
相比之下,我们日常使用的机器学习模型,训练数据量通常只有亿级,参数量在万级,总训练时长也多为分钟级。大模型在规模和资源消耗方面,远远超出了传统机器学习模型的范畴。
2.2 大模型分类
市面上的大模型实在太多,令人眼花缭乱,想要全面了解几乎不可能。幸运的是,我偶然发现了一篇文章,已经对截至2025年2月的大模型进行了系统梳理,并且还在持续更新。为了便于大家理解,我在此基础上绘制了如下思维导图,其中国产大模型用“红框+!”做了特别标注。
从导图可以看出,大模型是通过语言创造内容。按照内容类型划分,可以将大模型分为四类:语言、图片、音频和视频。其中,大语言模型又可以细分为通用模型和推理模型。
从应用角度来看,大语言模型(Large Language Model, LLM)已经广泛融入我们的日常生活和工作。而其他类型的大模型,我个人此前并未实际体验过,于是尝试用“王者荣耀场景,安琪拉大战小卤蛋”作为输入进行测试,结果却一塌糊涂,可见这些方向还有很大的提升空间。
3 LLM技术发展史
在上一章中,我们已经对大模型的概念和分类有了初步了解。作为算法方向的从业者,接下来是时候系统梳理一下大模型背后的技术发展脉络了。鉴于目前LLM是发展最为成熟的方向,下面将重点围绕 LLM 的技术演进进行介绍。
从整体方案来看,LLM的发展大致可以分为三个阶段:
-
规则驱动阶段:以 ELIZA 为代表,通过人工设定规则和模板来实现简单的语言理解与生成。
-
统计学习阶段:以 n-gram 算法为代表,基于统计方法建模词语之间的概率关系,实现了更自然的文本生成。
-
深度学习阶段:以 GPT 为代表,采用神经网络和大规模数据进行端到端训练,极大提升了模型的理解和生成能力。
这三个阶段见证了大语言模型从手工规则到数据驱动、再到深度学习智能化的演进过程。
3.1 规则驱动
ELIZA 是一个早期的聊天机器人,由 MIT 人工智能实验室开发,历时三年(1964-1966),主要贡献者是 Joseph Weizenbaum。ELIZA 能够模拟心理咨询师与用户对话,虽然技术简单,但在当时引起了广泛关注。下面是一个经典对话示例,可以看到 ELIZA 的回复看似合理,甚至带有一定的安慰性:
人:Men are all alike.
ELIZA:IN WHAT WAY
人:They’re always bugging us about something or other.
ELIZA:CAN YOU THINK OF A SPECIFIC EXAMPLE
人:Well my boyfriend made me come here.
ELIZA:YOUR BOYFRIEND MADE YOU COME HERE
人:He says I’m depressed much of the time.
ELIZA:I AM SORRY TO HEAR YOU ARE DEPRESSED
ELIZA 背后的核心原理其实是基于规则的匹配和转换。简单来说,就是通过一系列预设的模式,将用户输入映射为相应的回复。例如:
(0 YOU 0 ME) # [pattern]
(1 2 3 4) # [index]
->
(WHAT MAKES YOU THINK I 3 YOU) # [transform]
意思是,如果用户输入符合“A YOU B ME”这样的模式,ELIZA 就会生成“WHAT MAKES YOU THINK I B YOU”这样的回复。比如:
用户输入:You hate me
ELIZA 回复:WHAT MAKES YOU THINK I HATE YOU
基于规则的方法整体上显得比较刻板,开发和维护都非常耗时,且难以应对语言的多样性和复杂语境,覆盖能力有限。这也是后续统计学习方法和深度学习方法不断发展的原因之一。
3.2 统计学习
在 n-gram 算法中,首先会将语言内容建模为由一系列词元(Token)组成的序列数据。例如,原句:
这课好难
可以分解为词元序列:
{这, 课, 好, 难}
n-gram 算法的核心思想是:通过统计语料库中词元序列的出现频率,估计在给定前 n-1 个词元的情况下,下一个词元出现的概率,并选择概率最大的词元作为预测结果。
举个例子,假设前 n-1 个词元为:
{我, 考, 了, 99, 分, 这, 课, 好}
通过统计语料库发现,下一个词元为 {难} 的概率为 0.1,为 {简单} 的概率为 0.9,那么 n-gram 算法最终会返回概率更高的 {简单},即:
①这课好难
②这课好简单
最终会选择“这课好简单”。
接下来,再举一个例子,说明如何通过语料库计算词元序列出现的概率。假设语料库如下:
序号 | 语料库 |
---|---|
1 | 脖子长 是长颈鹿最醒目的特征之一。 |
2 | 脖子长 使得长颈鹿看起来非常优雅,并为其在获取食物带来便利。 |
3 | 有了长脖子的加持,长颈鹿可以观察到隐蔽的角落里发生的事情。 |
4 | 长颈鹿脖子 和人类脖子一样,只有七节颈椎,也容易患颈椎病。 |
5 | 如同长颈鹿脖子由短变长的进化历程一样,语言模型在不断进化。 |
如果我们要计算“{长颈鹿, 脖子}”这个词元序列出现的概率,计算公式如下:
长颈鹿脖子长颈鹿脖子长颈鹿
其中, 表示该词元或词元序列在语料库中出现的次数。
如果我们要计算“{脖子, 长}”这个词元序列出现的概率,计算公式如下:
脖子长脖子长脖子
如果我们要计算“{长颈鹿, 脖子, 长}”这个词元序列出现的概率,并设定n=1,计算公式如下:
长颈鹿脖子长长颈鹿脖子脖子长
总体来看,当文本较短时,n-gram 算法的计算效率较高,能够较好地建模词元之间的关系。但对于较长的句子或篇章,n-gram 算法很难捕捉长距离依赖和整体语义,表现会受到一定限制。
3.3 深度学习
GPT 的问世让大模型真正走进大众视野,但在此之前,底层技术经历了多个里程碑式的发展,包括 RNN(递归神经网络)、LSTM(长短时记忆网络) 和 Transformer。GPT 爆火之后,OpenAI 又推出了具备更强推理能力的 OpenAI-o1 模型。
3.3.1 RNN
下图左侧展示的是经典的 RNN 结构。RNN 以序列方式输入文本,每一步的输出(如 )不仅依赖当前输入(),还会受到前面所有输入的影响。右侧是 RNN 的一种变体,虽然结构略有不同,但本质上依然是顺序输入、依赖历史信息。
与 n-gram 相比,RNN 理论上能够捕捉更长距离的依赖关系,因此具备更广阔的应用前景。但在实际训练中,RNN 仍然难以处理长距离依赖。这是因为 RNN 在参数优化时高度依赖梯度传递:如果梯度持续变小,最终会消失(梯度消失);如果持续变大,则会爆炸(梯度爆炸),导致模型难以收敛。
3.3.2 LSTM
为了解决 RNN 的梯度消失和爆炸问题,LSTM应运而生。相较于 RNN,LSTM 对每个隐藏状态 进行了扩展,引入了四个核心模块:
-
遗忘门(forget gate):决定需要丢弃哪些信息,
-
输入门(input gate):决定存储哪些新信息,
-
输出门(output gate):决定输出哪些信息,
-
记忆单元(memory cell):用于长期记忆的存储。
为了便于理解 RNN 和 LSTM 的差异,可以做一个类比:RNN 像一个拾荒者,什么信息都不加区分地收集,而 LSTM 更像一个贵族,只保留对自己有价值的信息,主动筛选和遗忘。
3.3.3 Transformer
如果说 LSTM 解决了 RNN 的梯度问题,那么 Transformer 则解决了RNN计算效率低的问题。
RNN 的每一步计算都依赖前面的结果,只能串行进行,效率较低。而 Transformer 引入了自注意力机制,使得序列中所有位置的输出都可以并行计算,极大提升了训练和推理效率。
用公式表达,RNN 的计算方式为:
而 Transformer 的输出为:
3.3.4 GPT
从能力上看,Transformer 已经是非常强大的学习框架,可以说是“万能的锤子”,几乎可以适应各种任务。
GPT(Generative Pre-trained Transformer)就是基于 Transformer 架构,主要预测序列中的下一个词。例如,对于“我喜欢*”,GPT 需要预测 * 处应该填什么。
作为对比,BERT 也是基于 Transformer,但它预测的是句子中被随机掩盖(mask)的词元。例如,“我*你”,BERT 需要预测 * 处的词。
事实证明,GPT 的眼光非常独到。即使如此,从 2018 年 6 月第一版发布,到 2022 年 11 月 ChatGPT 引爆全球,也历经了 4 年、4个版本的持续迭代和完善。
3.3.5 OpenAI-o1
ChatGPT 爆火后,母公司OpenAI 于 2024 年 12 月发布了 OpenAI-o1 模型,其核心创新是引入了“思维链”(Chain of Thought, CoT)机制,显著增强了模型的推理能力。
如果用《思考,快与慢》中的观点来类比 GPT 系列与 OpenAI-o1 的差异:GPT 更像“系统1”,依赖经验和直觉,反应迅速但有时不够准确;而 OpenAI-o1 更像“系统2”,通过有条理的分析和推理,虽然慢一些,但更可靠,更擅长解决复杂问题。
一个有力的例证是:针对2024 年美国数学奥林匹克(AIME)中的15 道高难度数学题,GPT-4o(2024年5月发布)仅答对 2 题,而 OpenAI-o1 答对了 13 题,成绩已可进入美国前 500 名学生之列,展现出卓越的推理能力。
4 大模型业界应用
最后,我们再来看一下大模型在业界的应用情况。
关于这方面的市场调研报告非常多,偶然间发现了这张图,总结得相对全面,值得参考:
在《中国信通院华东分院》公众号(主页回复“2024案例集”)发布的《2024大模型典型示范应用案例集》中,汇总了99个大模型在业界的具体应用案例。其中,45个属于“行业赋能”,46个属于“智能应用”,涵盖了新型工业化、能源、医疗和政务等多个重要领域。总体来看,这些案例中的应用功能基本都可以在上面那张图上找到对应内容。下表列举了其中的3个具体案例,供参考:
案例名称 | 公司 | 应用场景 | 业务效益 | 应用功能归类 |
---|---|---|---|---|
“珠玑”大模型在搜推场景的赋能应用 | 小红书 | 对新笔记进行内容总结、特征提取,帮助推荐系统对新笔记进行精准推送 | 新笔记 0-1 互动数提升10.8% | 总结 |
支小宝 2.0- 智能金融助理 | 蚂蚁财富 | 为客户获取金融信息、完成投资分析、量身定制理财和保险方案 | 资产配置的合理度提升 5%,频繁交易比例下降 60% | 交互、分析 |
文修大模型赋能出版行业新未来 | 蜜度 | 校对出版物中存在的文字标点差错、知识性差错以及内容导向风险 | 日均审稿 100 万篇、审校字数超 2 亿 | 修改 |
5 总结
正文到此结束,以下是核心内容总结:
-
大模型本质上是具备更强任务处理能力的机器学习模型,目前发展最为成熟的是大语言模型(LLM)。
-
LLM 的技术发展大致经历了三个阶段:规则驱动(以 ELIZA 为代表)、数据驱动(以 n-gram 为代表)以及深度学习阶段(以 GPT 为代表)。
6 相关阅读
大模型&AI产品经理如何学习
求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。
1.学习路线图
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
2.视频教程
网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。
(都打包成一块的了,不能一一展开,总共300多集)
因篇幅有限,仅展示部分资料,需要点击下方图片前往获取
3.技术文档和电子书
这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
4.LLM面试题和面经合集
这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集***
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓