Transformer——Q123 验证标签平滑（Label Smoothing）对模型校准误差的影响-CSDN博客

本文链接：https://blog.csdn.net/pzccool/article/details/148216686

该问题归类到Transformer架构问题集——训练与优化——损失函数。请参考LLM数学推导——Transformer架构问题集。

1. 问题背景

在大语言模型（LLM）的训练过程中，模型的校准误差是一个重要的性能指标。校准良好的模型能够给出与实际概率相符的预测概率，即模型预测某个类别的概率为 p 时，在大量样本中该类别实际出现的频率也接近 p。然而，传统的独热编码（One - Hot Encoding）标签方式在训练时可能导致模型过于自信，使得模型的预测概率往往集中在某一个类别上（接近 0 或 1），从而产生较大的校准误差。标签平滑（Label Smoothing）技术应运而生，它旨在通过对标签进行一定的平滑处理，来改善模型的校准性能，减少校准误差，使模型的预测更加合理和可靠。

2. 技术原理

独热编码与模型过自信问题：在传统的多分类任务中，通常使用独热编码来表示标签。例如，对于一个三分类问题，真实类别为第二类时，其独热编码为 $[0, 1, 0]$ 。在训练过程中，交叉熵损失函数鼓励模型对正确类别的预测概率尽可能接近 1，对其他类别的预测概率尽可能接近 0。这会导致模型在训练后期变得过于自信，即使对于一些难以判断的样本，也会给出非常极端的预测概率。从数学角度看，交叉熵损失 $L = -\sum_{i = 1}^{C}y_i\log(p_i)$ （其中 $y_i$ 是独热编码的标签， $p_i$ 是模型预测属于第 i 类的概率，C 是类别数），当 $y_j = 1$ （j 为真实类别）时，损失主要由 $-\log(p_j)$ 决定，模型为了最小化损失，会努力使 $p_j$ 趋近于 1，而其他 $p_i$ （ $i \neq j$ ）趋近于 0。这种过于尖锐的预测分布可能并不符合实际情况，导致模型在面对新样本时校准误差较大。
标签平滑的定义与原理：标签平滑通过对独热编码的标签进行平滑处理来缓解模型过自信的问题。具体做法是，将原本的独热编码标签 y 转换为一个平滑后的标签 $y'$ 。假设平滑参数为 $\epsilon$ ，对于一个 C 类别的分类任务，平滑后的标签 $y_i'$ 计算公式为：

$y_i' = \begin{cases} 1 - \epsilon + \frac{\epsilon}{C}, & \text{if } i = j \text{ (true class)} \\ \frac{\epsilon}{C}, & \text{otherwise} \end{cases}$

其中 j 是真实类别。这样，原本的 $y_j = 1$ 被调整为一个略小于 1 的值 $1 - \epsilon + \frac{\epsilon}{C}$ ，而其他类别的 $y_i = 0$ 被调整为一个大于 0 的小值 $\frac{\epsilon}{C}$ 。通过这种方式，标签不再是完全尖锐的独热编码，而是具有一定的平滑性。

在训练过程中，使用平滑后的标签计算交叉熵损失，即 $L = -\sum_{i = 1}^{C}y_i'\log(p_i)$ 。这使得模型不会过度追求将某个类别的预测概率趋近于 1，而是会给出相对更加均匀的预测分布。从信息论的角度看，平滑后的标签增加了不确定性，模型在学习过程中需要考虑更多的信息，从而减少了过自信的情况，有助于降低校准误差。

3. LLM 中的使用示例

示例 1：文本分类任务：在一个新闻文本分类任务中，需要将新闻分为政治、经济、文化等多个类别。使用标签平滑技术时，对于一篇真实属于 “经济” 类别的新闻，其标签不再是严格的独热编码 $[0, 1, 0, \cdots]$ ，而是一个平滑后的向量，例如 $[0.01, 0.97, 0.01, \cdots]$ （假设 $\epsilon = 0.03$ ，类别数为 3）。模型在训练过程中，不会像使用独热编码时那样只关注将 “经济” 类别的预测概率提升到极高，而是会综合考虑其他类别一定的可能性。这样训练出来的模型在对新的新闻文本进行分类时，能够给出更加合理的预测概率，减少校准误差，例如对于一些边缘性的新闻文本，不会过于绝对地将其归为某一类。
示例 2：语言翻译任务：在机器翻译中，标签平滑可以应用于目标语言的词汇预测。例如，在将中文句子 “我喜欢苹果” 翻译成英文时，对于目标词汇 “apple” 的标签进行平滑处理。模型在学习过程中，不会仅仅聚焦于将 “apple” 的预测概率最大化，而是会对其他可能的词汇（如 “fruits” 等相关词汇）也给予一定的关注。这有助于模型在面对一些模糊或不常见的表达时，能够给出更合理的翻译结果，减少因过度自信而导致的错误，降低校准误差。
示例 3：情感分析任务：在对社交媒体文本进行情感分析时，将情感分为积极、消极、中性等类别。对于一条真实情感为 “积极” 的文本，平滑后的标签会让模型在训练时不过分强调将 “积极” 类别的概率提升到极致，而是适当考虑其他情感类别的可能性。这样，模型在面对一些带有微妙情感的文本时，能够更准确地判断情感倾向，避免过于绝对的预测，从而降低校准误差，提高情感分析的准确性。

4. 优缺点分析

优点：
- 降低模型过自信：标签平滑有效地减少了模型的过自信现象，使模型的预测概率分布更加合理，避免了过于极端的预测结果。这有助于模型在面对新样本时，能够给出更符合实际情况的预测，提高了模型的泛化能力。
- 改善模型校准性能：通过平滑标签，模型的校准误差得到降低，预测概率与实际概率更加接近。这对于需要准确概率估计的任务，如风险评估、不确定性推理等，具有重要意义。
- 增强模型鲁棒性：标签平滑使模型在训练过程中对噪声和异常样本更加鲁棒。因为平滑后的标签不再是严格的独热编码，即使训练数据中存在一些错误标注或噪声，模型也不会受到过大的影响，能够保持相对稳定的性能。
缺点：
- 初期收敛速度可能变慢：由于标签平滑引入了一定的不确定性，模型在训练初期可能需要更多的迭代次数来学习到有效的特征，导致收敛速度相对较慢。这在一些对训练时间要求较高的场景中可能是一个问题。
- 可能降低模型的区分能力：在某些情况下，标签平滑可能会使模型对不同类别之间的区分能力有所下降。因为它鼓励模型给出相对均匀的预测分布，可能会模糊一些类别之间的细微差异，尤其是在类别之间界限较为清晰的任务中。

5. 优化策略

调整平滑参数 $\epsilon$ ：根据不同的任务和数据集特点，合理调整平滑参数 $\epsilon$ 的值。可以通过交叉验证等方法，在验证集上尝试不同的 $\epsilon$ 值（如 0.01、0.05、0.1 等），选择能够使模型校准误差最小且性能最佳的参数。一般来说，对于样本噪声较大或类别之间界限不清晰的任务，可以适当增大 $\epsilon$ 的值；对于类别区分明显且对准确性要求较高的任务，可以减小 $\epsilon$ 的值。
结合其他正则化方法：将标签平滑与其他正则化技术，如 L1 正则化、L2 正则化或 dropout 等结合使用。这样可以在降低模型过自信的同时，进一步防止模型过拟合，提高模型的稳定性和泛化能力。例如，在使用标签平滑的同时，对模型的参数添加 L2 正则化约束，能够更好地平衡模型的复杂度和校准性能。
动态调整平滑程度：在训练过程中，可以根据模型的训练状态动态调整标签平滑的程度。例如，在训练初期，模型可能需要更多的引导来学习基本的特征，此时可以使用较小的 $\epsilon$ 值；随着训练的进行，模型逐渐收敛，可以适当增大 $\epsilon$ 值，以进一步减少过自信现象。

6. 代码示例（Python，基于 PyTorch）

import torch
import torch.nn as nn
import torch.nn.functional as F


class LabelSmoothingLoss(nn.Module):
    def __init__(self, classes, smoothing=0.0, dim=-1):
        super(LabelSmoothingLoss, self).__init__()
        self.confidence = 1.0 - smoothing
        self.smoothing = smoothing
        self.cls = classes
        self.dim = dim

    def forward(self, pred, target):
        pred = pred.log_softmax(dim=self.dim)
        with torch.no_grad():
            true_dist = torch.zeros_like(pred)
            true_dist.fill_(self.smoothing / (self.cls - 1))
            true_dist.scatter_(1, target.data.unsqueeze(1), self.confidence)
        return torch.mean(torch.sum(-true_dist * pred, dim=self.dim))

使用示例：

# 实例化模型、损失函数和优化器
model = nn.Linear(10, 5)
criterion = LabelSmoothingLoss(classes=5, smoothing=0.1)
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

# 生成一些随机的输入数据和标签
input_data = torch.randn(32, 10)
target_labels = torch.randint(0, 5, (32,))

# 训练模型
for epoch in range(100):
    outputs = model(input_data)
    loss = criterion(outputs, target_labels)
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()
    if (epoch + 1) % 10 == 0:
        print(f'Epoch [{epoch + 1}/{100}], Loss: {loss.item():.4f}')

7. 代码解读

LabelSmoothingLoss 类定义：
- 定义了一个继承自 nn.Module 的 LabelSmoothingLoss 类。在 __init__ 初始化函数中，设置了类别数 classes、平滑参数 smoothing 和维度 dim。self.confidence 表示平滑后真实类别的概率（ $1 - smoothing$ ），self.smoothing 为平滑参数，self.cls 记录类别数，self.dim 用于指定计算的维度。
- 在 forward 函数中，首先对模型的预测结果 pred 使用 log_softmax 函数计算对数概率。然后通过 torch.no_grad() 上下文管理器创建一个与 pred 形状相同的 true_dist 张量，并将其填充为平滑后的概率（每个非真实类别的概率为 self.smoothing / (self.cls - 1)）。接着使用 scatter_ 方法将真实类别的概率设置为 self.confidence。最后计算 true_dist 与 pred 的乘积的负数，并在指定维度上求和后取平均，得到标签平滑损失。
使用示例：
- 实例化了一个简单的线性模型 model，其输入维度为 10，输出维度为 5（适用于五分类任务）。
- 实例化了 LabelSmoothingLoss 损失函数 criterion，并设置类别数为 5，平滑参数 smoothing = 0.1。
- 实例化了 Adam 优化器 optimizer，用于更新模型参数。
- 生成了一批大小为 32 的随机输入数据 input_data 和对应的随机标签 target_labels。
- 在训练循环中，首先通过模型得到输出 outputs，然后使用 criterion 计算损失 loss。接着调用 optimizer.zero_grad() 清空梯度，通过 loss.backward() 进行反向传播计算梯度，最后使用 optimizer.step() 更新模型参数。每隔 10 个 epoch，打印当前的训练损失值。

8. 总结

标签平滑作为一种有效的技术手段，在大语言模型等机器学习任务中对于改善模型的校准性能、减少校准误差具有重要作用。它通过对传统独热编码标签进行平滑处理，缓解了模型的过自信问题，使模型的预测更加合理和可靠。尽管标签平滑存在初期收敛速度可能变慢和可能降低模型区分能力等缺点，但通过合理的优化策略，如调整平滑参数、结合其他正则化方法和动态调整平滑程度等，可以在很大程度上克服这些不足。在实际应用中，根据不同的任务需求和数据特点，灵活运用标签平滑技术，并结合适当的优化策略，能够显著提升模型的性能和泛化能力，为各种复杂的机器学习任务提供更准确和稳定的解决方案。