【论文阅读笔记】Learning Data Augmentation Strategies for Object Detection

最新推荐文章于 2022-12-07 16:12:38 发布

原创最新推荐文章于 2022-12-07 16:12:38 发布 · 605 阅读

1 ·

CC 4.0 BY-SA版权

论文读书笔记同时被 3 个专栏收录

80 篇文章

订阅专栏

目标检测

21 篇文章

订阅专栏

数据增强

3 篇文章

订阅专栏

本文探讨了针对目标检测任务的数据增强策略，指出其应区别于分类任务。通过强化学习搜索算法，作者找出了特定的增强组合，并在小数据集上验证了这些策略的泛化能力。实验表明，这些策略能有效提升多种backbone和检测算法的性能，且在不同数据集上表现稳定。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文地址：https://arxiv.org/abs/1906.11172

论文总结

本文是19年关于目标检测数据增强的论文，也没有提出啥开创性思想，主要思想就是“目标检测的数据增强应该和分类不一样，要有一些不同的数据增强策略”，然后做了一些实验来验证数据增强的组合。

然后通过搜索，得到了几组数据增强策略。还有就是，可以在小数据集上进行策略的应用，该策略在大数据集上也能有足够的泛化效应。

作者的贡献主要在搜索方法上，通过强化学习等工具，离散优化搜索策略空间。

学习到的5个子策略，如下图所示：

论文介绍

数据增强策略很多，要找出合适目标检测任务的数据增强策略。

作者将数据增强策略定义成了K个子策略，K个子策略被随机选择应用，因此能变成一个离散优化问题。最后的搜索空间有 $K = 5$ 个子策略，每个子策略有 $N = 2$ 个增强操作应用在单张图像上。每个操作有 $2$ 个参数，一个是概率，一个是操作的幅度大小。下图展示了学习到的5个子策略，概率参数在增强策略中引入了随机性的概念。

在初始试验中，为搜索空间确定了22个有利于目标检测的增强操作，可以大致分为以下三个方向：（1）扭曲的颜色通道，这种数据增强不影响位置；（2）几何扭曲图像，这种会改变bounding box大小和位置；（3）只在bounding box内部进行数据增强操作，即只破坏bounding box中的像素内容。

同时，在搜索时，将操作的幅度大小映射到0-10，这样方便离散优化等间距值。

前期实验时，发现 $L = 6$ 和 $M = 2$ 可以为强化学习算法提供一个计算容量和学习性能的一个好的平衡点。所以搜索空间变成了 $(22LM)^2\approx9.6*10^{28}$ ，这是非常大的，故需要一个有效的搜索技术。

搜索技术不太懂，先不写了。

实验结果

学习数据增强策略

使用ResNet-50作为backbone的RetinaNet。在不同数据集，不同数据集大小和不同的网络架构配置上进行泛化性实验，以检查有限的数据限制下的通用性和策略。

经过检查，Rotate是最常用的好的策略。旋转整个图像和边框，旋转后的边框会变大，尽管有这种影响，但似乎仍是一个好的策略。另外两个是Equalize(均衡化)和BBox_Only_TranslateY(概率地在框内向上或向下移)。

学习到的数据增强策略对目标检测的改善

训练参数为：网络为RetinaNet，batch size为 $64$ ，网络输入大小为resize到 $64 * 0 * 640$ ，学习率为 $0.08$ ，权重衰减值为 $1 e - 4$ ，focal loss超参数为 $\alpha=0.25,\gamma=1.5$ ，训练 $150$ 个epoch，学习率衰减策略为stepwise decay，在 $120$ 和 $120$ 衰减学习率10倍。