01引言
童年时期,我最热衷的乐趣就是拆解心爱的玩具,探究内部运作的奥秘。虽然大多数玩具最终都无法恢复原状(被我拆得七零八落),这个习惯却让我对乐高积木越来越着迷。当我第一次拥有乐高玩具时,终于明白制造商为同龄孩子们提供了多么精妙的设计——让我们能够学习、搭建并改造这个积木世界。
如今长大成人,我的"玩具"也变成了被多数人视为"黑匣子"的大语言模型(LLMs)。在这个被DeepSeek和OpenAI搅动的时代,理解LLMs的本质显得尤为重要。
本文将彻底拆解这个"黑匣子",带大家以全新视角逐层剖析大语言模型。我们先从术语认知开始,然后开启真正的解剖之旅。
02 什么是Tokens?
**“**饭要一口一口吃”。 同样,在自然语言处理(NLP)中,模型在处理大规模数据时,如果将其分割成小块,会更容易处理。因此,Token(词元) 可以是小至一个字符、大至一个单词的文本片段,而将大段文本分割成词元的过程就称为 Tokenization(词元化)。
举个例子,假设有一段文本:“Hold my math!”,根据模型的设计方式,Token可以是单词级、子词级,甚至是字符级的:
- 单词级词元化(Word-level tokenization):
["Hold", "my", "math", "!"]
- 子词级词元化(Subword-level tokenization):
["Hold", "my", "ma", "th", "!"]
- 字符级词元化(Character-level tokenization):
["H", "o", "l", "d", " ", "m", "y", " ", "m", "a", "t", "h", "!"]
在 大语言模型(LLMs) 中,输入文本会先由 模型的分词器(Tokenizer) 拆分成词元,然后再进行后续处理。
03Next Token Predict
人们通常将大语言模型视为一个"黑盒子"——输入文本后,它就会吐出一些输出文本。但作为AI工程师,要理解模型如何得出最终输出,我们必须深入探究其中间阶段的运作机制。在继续深入之前,我们需要对这些模型的基本工作原理有个初步认识。
大语言模型的核心架构是Transformer,本质上属于下一词元预测器。在给定输入词元后,模型通过分析学习,预测下一个可能词元的概率分布。
实际应用中,神经网络虽然处理的是大段文本,但输入长度是固定的——每次只能接收设定数量的词元,并且每一步只生成一个词元。那么像ChatGPT这样的模型是如何输出长篇回答的呢?关键在于高效迭代这个流程。假设我们采用字符级词元化,输入长度为5个词元,请看以下示意图:
04Token转化为数字
神经网络并不能直接处理文本数据,而是需要将输入数据转换为数值表示。因此,我们首先需要把词元(token)转化为数字。根据模型设计,每个大语言模型(LLM)都有一个预定义的词汇表(可以理解为普通人的字典),模型就是基于这个词汇表进行训练的。每个词元都会被转换成一个特定的数值,更准确地说,是转换成该词元在词汇表中的ID编号。例如:字母"H"可能对应ID #8字母"m"可能对应ID #13以此类推沿用我们之前讨论的5个输入词元的例子,下图展示了神经网络可能的简化工作流程示意图。但同样,这在实际操作中并非如此。让我们进一步深入探讨。在单词级别或子词级别的一个词元(token)需要包含大量信息供大语言模型(LLM)学习。信息的丰富性无法用单一数字表示。那么,如果我们用一个数字数组来表示每个词元呢?
这就是所谓的嵌入向量(embedding vector)。每个数组的长度相同,从几百到几千不等。每个词元的嵌入向量都是从训练好的大型数组集合(称为嵌入矩阵)的列中提取的。现在,我们需要调整输入层以容纳所有这些数值。以下是相应的结构。
由于词元(token)通常对应单词或子词级别,我们将沿用这一约定来更好地解释后续概念。
05Transformer Block
Transformer这一架构最早出现在2017年谷歌研究院的论文《Attention is All You Need》中,现已成为所有大语言模型的基础构建模块。OpenAI的GPT-2模型就采用了仅包含解码器堆叠的Transformer架构,该解码器由自注意力层和前馈层组成。虽然现代大语言模型进行了各种细微的架构改进和规模适配,但Transformer始终是最原始的架构基础,至今仍以不同形式被广泛使用。本文将提供高层级的概述,但不会深入数学细节(这会使我们的主题偏离范围)。位置编码位置编码(Positional Encoding) 用于表示序列中元素的位置信息。由于简单的索引无法充分表征长序列的复杂性,Transformer模型采用这种机制,以保留更丰富的词元位置信息。其输出结果是一个矩阵,其中存储了序列内词元的深层位置关系,使模型能够感知输入的次元顺序。
此外,还需将位置编码向量与词嵌入(word embeddings)逐元素相加。
由于残差连接的存在,这部分信息在模型的后续层中仍然得以保留。
06Self Attention
这可能会有些复杂!我们可以将其视为模型用来寻找词元之间关系以预测下一个词元的机制。以我们的例子“The cat slept on the mat and it purred”为例,单词“it”可以指代序列中的任何一个词。但我们知道它指向的是“cat”,而不是“mat”或序列中的其他任何词。我们如何教会模型这样的关联呢?这正是模型通过自注意力机制学习的内容。模型通过学习构建一个关系矩阵,为每个词元赋予与其关联性更强的词元更高的权重值。这有助于模型生成更好的encoding,将每个词元与序列中其他相关词元进行关联。以上只是对该概念的概述,您可以通过阅读Transformer论文深入阅读相关内容。在Transformer架构中可以看到多头注意力机制(multi-head attention)。这无非是将多个自注意力头组合在一起,让不同注意力头在每个处理步骤中学习不同类型的信息。最终将这些注意力头的输出结果进行融合。
07FFN和Softmax
注意力模块的输出被传递到前馈层(FFN),这些前馈层通常是由上投影层和下投影层构成的简单神经网络层。在架构中的每个组件块之后,都会应用层归一化。对每一层中的激活值进行归一化有助于稳定训练过程,并减少“内部协变量偏移”问题,即在训练过程中激活值的分布发生变化,使得网络更难以学习。
Softmax层颇为有趣。输出层生成一个维度与词汇表大小相匹配的向量。也就是说,如果词汇表中有50000个词元,最终的输出将是一个50000 x 1的向量。应用softmax激活函数后,向量中的每个值都表示对应词元成为下一个预测输出的概率。通过这种方式,大语言模型(LLM)预测下一个词元,且所有概率值的总和为1。
08结论
在这篇文章中,大家已经学到了关于大语言模型(LLM)几乎所有需要了解的内容,从Transformer架构到剖析其内部工作原理。我们不再将它们视为仅仅将输入转化为输出的“黑盒子”,而是探索了信息在每一阶段是如何被处理的,揭示了其响应背后复杂的计算过程。
希望可以加深大家对大语言模型的理解。
读者福利:知道你对AI大模型感兴趣,便准备了这套对AI大模型学习资料
对于0基础小白入门:
如果你是零基础小白,想快速入门AI大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以找到适合自己的学习方案
包括:大模型从零基础到进阶的学习路线、100套AI大模型商业化落地方案,大模型全套视频教程。带你从零基础系统性的学好AI大模型!
需要的可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

AI大模型学习路线
如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!
这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
100套AI大模型商业化落地方案
大模型全套视频教程
200本大模型PDF书籍
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
LLM面试题合集
大模型产品经理资源合集
大模型项目实战合集
这份完整版的学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
