1. 什么是大语言模型(LLM)
大语言模型(Large Language Model,简称 LLM)是一种人工智能模型,能够理解和生成人类语言。
它可以完成很多自然语言处理任务,比如:
- 文本分类(判断文章类别)
- 问答(回答问题)
- 翻译(中英互译等)
- 对话(像 ChatGPT 一样聊天)
备注:
“大”是指模型的参数量很大(通常超过 100 亿个参数),这些参数是在海量文本数据上训练出来的。参数越多,模型的理解和生成能力通常越强。
常见的大语言模型:
- GPT-3 / ChatGPT(OpenAI)
- GLM(清华大学)
- BLOOM(开源社区)
- LLaMA(Meta)
优点:
- 能像人类一样聊天、回答问题,甚至能用插件自动搜索信息。
缺点:
- 需要大量计算资源和时间训练。
- 可能生成错误、有害或带偏见的内容。
2. N-gram 语言模型
2.1 基本原理
N-gram 模型是一种基于统计的语言模型,它假设:
一个词出现的概率,只与它前面的 N-1 个词有关。
举例:
- Unigram(一元模型):假设每个词独立出现。
- Bigram(二元模型):只看前 1 个词。
- Trigram(三元模型):只看前 2 个词。
公式(以 Bigram 为例):
P(Wi∣Wi−1)=C(Wi−1,Wi)C(Wi−1)P(Wi∣Wi−1)=C(Wi−1)C(Wi−1,Wi)
其中:
- C(Wi−1,Wi)C(Wi−1,Wi):前一个词和当前词一起出现的次数
- C(Wi−1)C(Wi−1):前一个词出现的次数
备注:
N-gram 模型的核心思想是“用历史预测未来”,但它的“历史”很短,只看前 N-1 个词。
2.2 Bigram 示例
假设我们有一个小型语料库(数据集),统计结果如下:
- “我 想”出现 800 次
- “我”出现 2100 次
那么:
P(想∣我)=8002100≈0.38P(想∣我)=2100800≈0.38
如果要计算句子“我 想 去 打 篮球”的概率:
P=P(想∣我)×P(去∣想)×P(打∣去)×P(篮球∣打)P=P(想∣我)×P(去∣想)×P(打∣去)×P(篮球∣打)
2.3 优缺点
优点:
- 简单易懂,计算方法直观。
- 参数训练容易。
缺点:
- 只能看有限的上下文(N-1 个词)。
- N 增大时,参数量会爆炸。
- 数据稀疏时容易出现 OOV(未登录词)问题。
- 泛化能力差(遇到没见过的句子表现不好)。
3. 神经网络语言模型
为解决 N-gram 的局限,人们引入了神经网络:
- 输入层:将前 N-1 个词转成词向量(C(w))。
- 隐藏层:全连接层 + 激活函数(如 tanh)。
- 输出层:softmax 得到下一个词的概率分布。
备注:
神经网络能捕捉更复杂的上下文关系,不再局限于固定的 N-1 个词,但计算量更大。
4. 基于 Transformer 的预训练语言模型
Transformer 是目前最主流的语言模型架构,代表模型有 GPT、BERT、T5 等。
工作流程:
- 预训练:在大规模数据集上学习通用语言知识。
- 微调:在具体任务上调整模型,让它更适合特定场景。
优点:
- 泛化能力强,语义理解更好。
- 能有效防止过拟合。
缺点:
- 计算资源需求高。
- 可解释性差(不容易知道模型为什么这么预测)。
5. 常用评估指标
- Accuracy(准确率):预测正确的比例。
- Precision(精确率):预测为正类中,真正类的比例。
- Recall(召回率):所有正类中,被预测正确的比例。
- BLEU:评估机器翻译结果与参考译文的相似度(0~1,越高越好)。
- ROUGE:评估生成结果与参考答案的匹配程度(常用于摘要、问答)。
- PPL(困惑度):衡量模型预测的好坏(越小越好)。
6. BLEU 计算示例
假设:
- candidate(机器翻译):It is a nice day today
- reference(参考译文):today is a nice day
1-gram 匹配度:
- 匹配词:{is, a, nice, day, today} → 5/6
2-gram 匹配度:
- 匹配词组:{is a, a nice, nice day} → 3/5
最终 BLEU 会综合 1~4-gram 的匹配度加权平均。
7. PPL(困惑度)
公式:
PP(W)=P(w1w2…wN)−1NPP(W)=P(w1w2…wN)−N1
含义:
- 句子概率越大,PPL 越小,说明模型越好。
备注:
PPL 可以理解为“模型有多困惑”。困惑度低,说明模型很确定自己的预测。
8. 思考总结
- 评估指标:Accuracy、Precision、Recall、BLEU、ROUGE、PPL。
- BLEU:看翻译结果和参考译文的相似度。
- ROUGE:看生成结果和参考答案的匹配程度,更关注召回率。
- PPL:看模型预测的好坏,越小越好。