EPrOD：基于多样本的进化概率目标检测器

立即解锁

发布时间: 2025-09-02 01:00:56 阅读量: 11 订阅数: 44

计算机视觉前沿研究

### EPrOD：基于多样本的进化概率目标检测器 #### 1. 引言随着卷积神经网络（CNN）的迅速发展，基于CNN的目标检测器已广泛应用于工业、军事和家庭等多个领域。然而，传统目标检测器的结果往往过于自信，不确定性越高，误判风险就越大。为了提前预防这种风险，概率目标检测器（PrOD）应运而生，它通过考虑结果的不确定性，排除高不确定性的结果，从而降低误判风险。特别是通过将蒙特卡罗方法应用于现有目标检测器，PrOD在保证高性能的同时还能考虑不确定性。但基于蒙特卡罗方法的PrOD仍然存在低估结果不确定性以及使用信息有限的问题。为了克服这些缺点，本文提出了一种进化的PrOD（EPrOD），它由以下四种关键技术组成： - 反照率提取：通过AlbedoNet生成反照率图像，使EPrOD能够在多域中检测目标。 - 软DropBlock：去除特征图的局部信息，获取多样本。 - 堆叠非极大值抑制（NMS）：一种两步后处理方法，带有额外约束，可减轻低估不确定性的结果。 - 帧间处理：减少反照率图像中的误报，去除当前帧和相邻帧之间不共有的边界框。这四种技术在无需额外训练的情况下对EPrOD产生积极影响，实验结果表明EPrOD显著提高了基于概率的检测质量（PDQ）得分。本文的主要贡献如下： - 反照率处理通过提供多域图像克服了单域检测的局限性，从而产生多样化的检测结果。 - 软DropBlock有效地从特征图中去除局部信息，收集多样本。 - 一种名为“堆叠NMS”的新型NMS，通过施加额外限制，抑制低估不确定性的结果，同时保留可靠结果。 #### 2. 方法 EPrOD采用了著名的单阶段目标检测器YOLOv3，并结合自适应空间特征融合（ASFF）作为骨干网络。其整体框架包含四个主要模块：反照率提取、应用软DropBlock的目标检测器、堆叠NMS和帧间处理。 ##### 2.1 反照率提取传统的PrOD仅在单域图像中计算近似值，容易受到光源影响而产生有偏差的结果。为了克服这个问题，本文提出使用去除了阴影信息的反照率图像，以减少光源的影响。Bell等人首次提出了提取反照率图像的方法，但该方法由于需要重复进行逐像素操作，耗时较长。为了缩短反照率提取时间，本文提出了基于U-Net的AlbedoNet，它可以将输入图像转换到反照率域。AlbedoNet使用由MS COCO数据集和从MS COCO中提取的反照率图像组成的配对数据集进行训练，其训练目标函数如下： \[L1 = E[\|G_{R→A}(x) - y\|_1]\] 其中，\(G_{R→A}\)是使用U-Net的AlbedoNet，\(x\)和\(y\)分别表示原始图像和反照率图像。通过AlbedoNet提取的反照率图像不受光源影响，能够在多域中产生潜在目标，从而从多样化的检测结果中得出近似值。 ##### 2.2 软DropBlock 基于蒙特卡罗方法的PrOD通过对一些特征图应用dropout并多次推理来获取随机样本。然而，具有高像素间相关性的特征图很难受到dropout的影响，这阻碍了样本的多样性。DropBlock可以通过块级方法有效地去除特征图的局部信息，但它的不连续边界可能会过度去除对检测重要的信息。因此，本文提出了一种新的软DropBlock，它是在DropBlock的基础上应用了盒滤波，定义如下： \[M_{SDB}(u, v) = \frac{1}{k^2} \sum_{i = u - \frac{k}{2}}^{u + \frac{k}{2}} \sum_{j = v - \frac{k}{2}}^{v + \frac{k}{2}} M_{DB}(i, j)\] 其中，\(M\)表示丢弃掩码，\(u\)和\(v\)表示丢弃掩码中的坐标，\(SDB\)和\(DB\)分别表示软DropBlock和DropBlock，\(k\)表示要丢弃的块大小。软DropBlock产生的平滑边界可以在去除局部信息的同时减少检测信息的损失。 ##### 2.3 堆叠NMS 传统的NMS在假设所有检测结果都可靠的前提下提取最终结果。但在实际应用中，不准确的目标候选会增加误判风险。如果在去除部分信息的情况下进行目标检测，通常会产生不准确的边界框。此时应用传统NMS，由于堆叠和重叠不准确的边界框会使细化过程变得复杂，从而严重降低准确性。为了解决这个问题，堆叠NMS通过两步后处理来细化边界框，并计算边界框的出现频率以决定是否保留。其伪代码如下： ```plaintext Data: Dataset D, Object detector F, IOU threshold τ1, τ2, Grouped boxes threshold β, number of inferences I for all frame d ∈ D do R, O ← ∅ // final results and observations of each inference for all i < I do Bi = F(d) O = O ∪ NMS(Bi, τ1) end for selectedall ← False for all ol ∈ O do Gl ← ∅ // groups containing closely located elements if ol has no group then for all arbitrary ox without group do Gl ← put ox into Gl where IoU(ol, ox) ≥ τ2 end for end if put mean(Gl) into R where n(Gl) ≥ β end for end for return R ``` 堆叠NMS有两个优