关于focal loss和分类任务中的hard negative（positive）mining

最新推荐文章于 2026-03-02 03:30:39 发布

原创

最新推荐文章于 2026-03-02 03:30:39 发布 · 4.1k 阅读

文章标签：

#hard negative mining #focal loss #object tracking #object detection

本文探讨了深度学习中解决类别不平衡问题的策略，特别是针对目标检测和跟踪任务。focal loss作为一种hard sample mining技术，通过调整样本权重，解决了在交叉熵损失函数中hard samples被easy samples淹没的问题。focal loss通过引入调节因子，对困难负样本赋予更大权重，从而提高分类器的性能。此外，文章引用了多个跟踪和检测领域的研究，进一步阐述了focal loss在实际应用中的作用。

深度学习，数据是关键。

在训练一个分类器的时候，对数据的要求是class balance，即不同标签的样本量都要充足且相仿。然而，这个要求在现实应用中往往很难得到保证。

下面我以基于检测的单目标跟踪举例分析这个问题。

visual object tracking是在一段视频中跟踪一个特定目标。常见的方法有one-stage regression（比如correlation filter tracking）和two-stage classifcation tracking。这里我们只关注后者。two stages分别是首先在上一帧视频中目标的跟踪位置周围采样得到一堆target candidates（这与two-stageRCNN系列检测器的proposal生成是一样的意思）；在第二个stage，就要使用训练所得的一个classfier来进行前景or背景的而分类。

训练这个第二stage中的classfier就面临这class imbalance的问题（在two-stage检测器中同理。这就可以推广为，凡是在一个estimated bounding box周围随机采集正负样本bounding box时，都会有imbalance的问题。），即严格意义上的正样本只有一个，即the estimated bounding box，而负样本则可以是这一帧图像上除了正样本bbox之外的所有bbox。为了放宽这一要求，采用bbox IoU thresholding的方法来使得那些与正样本bbox overlap足够大的bbox也被认定为是正样本呢，多么无奈的妥协。但即便是这样，依旧存在严重的imbalance。

为了解决这种imbalance，在训练一个分类器（用cross-entropy loss）的时候，就需要设计一些hard （postive/negative）samples mining [1-5]