LLM大模型-基础篇-语言模型入门

1. 什么是大语言模型(LLM)

大语言模型(Large Language Model,简称 LLM)是一种人工智能模型,能够理解生成人类语言。
它可以完成很多自然语言处理任务,比如:

  • 文本分类(判断文章类别)
  • 问答(回答问题)
  • 翻译(中英互译等)
  • 对话(像 ChatGPT 一样聊天)

备注
“大”是指模型的参数量很大(通常超过 100 亿个参数),这些参数是在海量文本数据上训练出来的。参数越多,模型的理解和生成能力通常越强。

常见的大语言模型:

  • GPT-3 / ChatGPT(OpenAI)
  • GLM(清华大学)
  • BLOOM(开源社区)
  • LLaMA(Meta)

优点

  • 能像人类一样聊天、回答问题,甚至能用插件自动搜索信息。

缺点

  • 需要大量计算资源和时间训练。
  • 可能生成错误、有害或带偏见的内容。

2. N-gram 语言模型

2.1 基本原理

N-gram 模型是一种基于统计的语言模型,它假设:

一个词出现的概率,只与它前面的 N-1 个词有关。

举例:

  • Unigram(一元模型):假设每个词独立出现。
  • Bigram(二元模型):只看前 1 个词。
  • Trigram(三元模型):只看前 2 个词。

公式(以 Bigram 为例):

P(Wi∣Wi−1)=C(Wi−1,Wi)C(Wi−1)P(Wi​∣Wi−1​)=C(Wi−1​)C(Wi−1​,Wi​)​


其中:

  • C(Wi−1,Wi)C(Wi−1​,Wi​):前一个词和当前词一起出现的次数
  • C(Wi−1)C(Wi−1​):前一个词出现的次数

备注
N-gram 模型的核心思想是“用历史预测未来”,但它的“历史”很短,只看前 N-1 个词。


2.2 Bigram 示例

假设我们有一个小型语料库(数据集),统计结果如下:

  • “我 想”出现 800 次
  • “我”出现 2100 次

那么:

P(想∣我)=8002100≈0.38P(想∣我)=2100800​≈0.38

如果要计算句子“我 想 去 打 篮球”的概率:

P=P(想∣我)×P(去∣想)×P(打∣去)×P(篮球∣打)P=P(想∣我)×P(去∣想)×P(打∣去)×P(篮球∣打)


2.3 优缺点

优点

  • 简单易懂,计算方法直观。
  • 参数训练容易。

缺点

  • 只能看有限的上下文(N-1 个词)。
  • N 增大时,参数量会爆炸。
  • 数据稀疏时容易出现 OOV(未登录词)问题。
  • 泛化能力差(遇到没见过的句子表现不好)。

3. 神经网络语言模型

为解决 N-gram 的局限,人们引入了神经网络:

  1. 输入层:将前 N-1 个词转成词向量(C(w))。
  2. 隐藏层:全连接层 + 激活函数(如 tanh)。
  3. 输出层:softmax 得到下一个词的概率分布。

备注
神经网络能捕捉更复杂的上下文关系,不再局限于固定的 N-1 个词,但计算量更大。


4. 基于 Transformer 的预训练语言模型

Transformer 是目前最主流的语言模型架构,代表模型有 GPT、BERT、T5 等。

工作流程

  1. 预训练:在大规模数据集上学习通用语言知识。
  2. 微调:在具体任务上调整模型,让它更适合特定场景。

优点

  • 泛化能力强,语义理解更好。
  • 能有效防止过拟合。

缺点

  • 计算资源需求高。
  • 可解释性差(不容易知道模型为什么这么预测)。

5. 常用评估指标

  1. Accuracy(准确率):预测正确的比例。
  2. Precision(精确率):预测为正类中,真正类的比例。
  3. Recall(召回率):所有正类中,被预测正确的比例。
  4. BLEU:评估机器翻译结果与参考译文的相似度(0~1,越高越好)。
  5. ROUGE:评估生成结果与参考答案的匹配程度(常用于摘要、问答)。
  6. PPL(困惑度):衡量模型预测的好坏(越小越好)。

6. BLEU 计算示例

假设:

  • candidate(机器翻译):It is a nice day today
  • reference(参考译文):today is a nice day

1-gram 匹配度

  • 匹配词:{is, a, nice, day, today} → 5/6

2-gram 匹配度

  • 匹配词组:{is a, a nice, nice day} → 3/5

最终 BLEU 会综合 1~4-gram 的匹配度加权平均。


7. PPL(困惑度)

公式:

PP(W)=P(w1w2…wN)−1NPP(W)=P(w1​w2​…wN​)−N1​


含义:

  • 句子概率越大,PPL 越小,说明模型越好。

备注
PPL 可以理解为“模型有多困惑”。困惑度低,说明模型很确定自己的预测。


8. 思考总结

  1. 评估指标:Accuracy、Precision、Recall、BLEU、ROUGE、PPL。
  2. BLEU:看翻译结果和参考译文的相似度。
  3. ROUGE:看生成结果和参考答案的匹配程度,更关注召回率。
  4. PPL:看模型预测的好坏,越小越好。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值