RoI Transformer论文翻译详解

最新推荐文章于 2025-04-04 10:20:56 发布

vitalgirl

最新推荐文章于 2025-04-04 10:20:56 发布

阅读量1.7k

点赞数

CC 4.0 BY-SA版权

文章标签： transformer 计算机视觉深度学习

本文链接：https://blog.csdn.net/qq_34885993/article/details/129013118

文章提出了一种RoITransformer方法，用于解决航空图像中基于水平RoI的目标检测问题，特别是处理密集和定向目标时的不匹配。RoITransformer通过学习空间变换参数，以OBB注释进行监督，改善了RoI与目标的匹配，提高了分类置信度和定位精度。该方法在DOTA和HRSC2016数据集上表现出优越性能，且能轻松集成到现有检测框架中，提升了检测效率和准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Learning RoI Transformer for Oriented Object Detection in Aerial Images

0.摘要

航空图像中的目标检测是计算机视觉中一个活跃而又具有挑战性的任务，因为它具有鸟瞰视角、高度复杂的背景和变化的物体外观。特别是在航空图像中检测密集的目标时，基于水平建议的普通目标检测方法往往会导致感兴趣区域(Region of interest, RoIs)与目标之间的不匹配。这就导致了最终目标分类置信度与定位精度之间的常见偏差。在本文中，我们提出了一个RoI Transformer来解决这些问题。RoI Transformer的核心思想是对RoI进行空间变换，并在定向包围框(OBB)注释的监督下学习变换参数。RoI Transformer是轻量级的，可以很容易地嵌入到检测器中，用于定向对象检测。简单地将RoI Transformer应用于light-head RCNN 已经在两个常见且具有挑战性的航空数据集上取得了最先进的性能，即DOTA和HRSC2016，检测速度的降低可以忽略。当定向边界框注释可用时，我们的RoI Transformer超过了可变形的位置敏感 RoI pool-ing。大量的实验也验证了我们的RoI Transformer的灵活性和有效性。

1.介绍

（1）背景
水平框检测会造成边界框和目标的不一致性，尤其是当目标密集分布时。由于航空影像目标方向的多样性，使用有限方向的RRoIs很难与所有的目标都正确匹配，并且多方向的RRoIs还会造成计算的高度复杂性。空间变换、形变卷积和RoI池化常被用来处理几何变形，并且不涉及标注的旋转边界框。在航空影像中，提取具有旋转不变性的区域特征，对于消除区域特征和目标的不匹配问题是非常重要的。

（2)本文研究的主要内容：
提出了RoI Transformer的模块结构，通过标注RRoI的监督学习和基于位置敏感对齐的特征提取，旨在利用双阶段框架实现密集旋转目标的检测。它由两部分组成：
第一个是RRoI学习器，它学习从hroi到RRoI的转换。
第二个是旋转位置敏感RoI Align，从RRoI中提取旋转不变特征，用于后续的对象分类和位置回归。

（3）本文研究的主要贡献：