一、核心指标含义及解读
1. Epoch(训练轮次)
- 定义:完整遍历一次训练数据集的迭代过程
- 监控要点:
- 理想曲线:随着epoch增加,loss应持续下降
- 异常情况:
- 早停点(eval loss不再下降)
- 过拟合点(train loss↓但eval loss↑)
- 建议范围:LLM微调通常3-15轮(数据量决定)
2. Train Loss(训练损失)
- 计算公式:
$ \text{Loss} = \frac{1}{N} \sum_{i=1}^{N} \mathcal{L}(f(x_i), y_i) $ - 变化解读:
- 正常下降:模型学习训练数据模式
- 震荡波动:学习率过大/batch size过小
- 平台停滞:模型容量不足/需要调整优化器
- 典型曲线: