LLM大模型-基础篇-语言模型入门

最新推荐文章于 2025-09-18 10:20:27 发布

原创最新推荐文章于 2025-09-18 10:20:27 发布 · 958 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #人工智能 #自然语言处理

⼤语⾔模型(LLM) 专栏收录该内容

8 篇文章

订阅专栏

1. 什么是大语言模型（LLM）

大语言模型（Large Language Model，简称 LLM）是一种人工智能模型，能够理解和生成人类语言。
它可以完成很多自然语言处理任务，比如：

文本分类（判断文章类别）
问答（回答问题）
翻译（中英互译等）
对话（像 ChatGPT 一样聊天）

备注：
“大”是指模型的参数量很大（通常超过 100 亿个参数），这些参数是在海量文本数据上训练出来的。参数越多，模型的理解和生成能力通常越强。

常见的大语言模型：

GPT-3 / ChatGPT（OpenAI）
GLM（清华大学）
BLOOM（开源社区）
LLaMA（Meta）

优点：

能像人类一样聊天、回答问题，甚至能用插件自动搜索信息。

缺点：

需要大量计算资源和时间训练。
可能生成错误、有害或带偏见的内容。

2. N-gram 语言模型

2.1 基本原理

N-gram 模型是一种基于统计的语言模型，它假设：

一个词出现的概率，只与它前面的 N-1 个词有关。

举例：

Unigram（一元模型）：假设每个词独立出现。
Bigram（二元模型）：只看前 1 个词。
Trigram（三元模型）：只看前 2 个词。

公式（以 Bigram 为例）：

P(Wi∣Wi−1)=C(Wi−1,Wi)C(Wi−1)P(Wi∣Wi−1)=C(Wi−1)C(Wi−1,Wi)

其中：

C(Wi−1,Wi)C(Wi−1,Wi)：前一个词和当前词一起出现的次数
C(Wi−1)C(Wi−1)：前一个词出现的次数

备注：
N-gram 模型的核心思想是“用历史预测未来”，但它的“历史”很短，只看前 N-1 个词。

2.2 Bigram 示例

假设我们有一个小型语料库（数据集），统计结果如下：

“我想”出现 800 次
“我”出现 2100 次

那么：

P(想∣我)=8002100≈0.38P(想∣我)=2100800≈0.38

如果要计算句子“我想去打篮球”的概率：

P=P(想∣我)×P(去∣想)×P(打∣去)×P(篮球∣打)P=P(想∣我)×P(去∣想)×P(打∣去)×P(篮球∣打)

2.3 优缺点

优点：

简单易懂，计算方法直观。
参数训练容易。

缺点：

只能看有限的上下文（N-1 个词）。
N 增大时，参数量会爆炸。
数据稀疏时容易出现 OOV（未登录词）问题。
泛化能力差（遇到没见过的句子表现不好）。

3. 神经网络语言模型

为解决 N-gram 的局限，人们引入了神经网络：

输入层：将前 N-1 个词转成词向量（C(w)）。
隐藏层：全连接层 + 激活函数（如 tanh）。
输出层：softmax 得到下一个词的概率分布。

备注：
神经网络能捕捉更复杂的上下文关系，不再局限于固定的 N-1 个词，但计算量更大。

4. 基于 Transformer 的预训练语言模型

Transformer 是目前最主流的语言模型架构，代表模型有 GPT、BERT、T5 等。

工作流程：

预训练：在大规模数据集上学习通用语言知识。
微调：在具体任务上调整模型，让它更适合特定场景。

优点：

泛化能力强，语义理解更好。
能有效防止过拟合。

缺点：

计算资源需求高。
可解释性差（不容易知道模型为什么这么预测）。

5. 常用评估指标

Accuracy（准确率）：预测正确的比例。
Precision（精确率）：预测为正类中，真正类的比例。
Recall（召回率）：所有正类中，被预测正确的比例。
BLEU：评估机器翻译结果与参考译文的相似度（0~1，越高越好）。
ROUGE：评估生成结果与参考答案的匹配程度（常用于摘要、问答）。
PPL（困惑度）：衡量模型预测的好坏（越小越好）。

6. BLEU 计算示例

假设：

candidate（机器翻译）：It is a nice day today
reference（参考译文）：today is a nice day

1-gram 匹配度：

匹配词：{is, a, nice, day, today} → 5/6

2-gram 匹配度：

匹配词组：{is a, a nice, nice day} → 3/5

最终 BLEU 会综合 1~4-gram 的匹配度加权平均。

7. PPL（困惑度）

公式：

PP(W)=P(w1w2…wN)−1NPP(W)=P(w1w2…wN)−N1

含义：

句子概率越大，PPL 越小，说明模型越好。

备注：
PPL 可以理解为“模型有多困惑”。困惑度低，说明模型很确定自己的预测。

8. 思考总结

评估指标：Accuracy、Precision、Recall、BLEU、ROUGE、PPL。
BLEU：看翻译结果和参考译文的相似度。
ROUGE：看生成结果和参考答案的匹配程度，更关注召回率。
PPL：看模型预测的好坏，越小越好。