EPrOD:基于多样本的进化概率目标检测器
立即解锁
发布时间: 2025-09-02 01:00:56 阅读量: 11 订阅数: 44 AIGC 


计算机视觉前沿研究
### EPrOD:基于多样本的进化概率目标检测器
#### 1. 引言
随着卷积神经网络(CNN)的迅速发展,基于CNN的目标检测器已广泛应用于工业、军事和家庭等多个领域。然而,传统目标检测器的结果往往过于自信,不确定性越高,误判风险就越大。为了提前预防这种风险,概率目标检测器(PrOD)应运而生,它通过考虑结果的不确定性,排除高不确定性的结果,从而降低误判风险。特别是通过将蒙特卡罗方法应用于现有目标检测器,PrOD在保证高性能的同时还能考虑不确定性。但基于蒙特卡罗方法的PrOD仍然存在低估结果不确定性以及使用信息有限的问题。
为了克服这些缺点,本文提出了一种进化的PrOD(EPrOD),它由以下四种关键技术组成:
- 反照率提取:通过AlbedoNet生成反照率图像,使EPrOD能够在多域中检测目标。
- 软DropBlock:去除特征图的局部信息,获取多样本。
- 堆叠非极大值抑制(NMS):一种两步后处理方法,带有额外约束,可减轻低估不确定性的结果。
- 帧间处理:减少反照率图像中的误报,去除当前帧和相邻帧之间不共有的边界框。
这四种技术在无需额外训练的情况下对EPrOD产生积极影响,实验结果表明EPrOD显著提高了基于概率的检测质量(PDQ)得分。
本文的主要贡献如下:
- 反照率处理通过提供多域图像克服了单域检测的局限性,从而产生多样化的检测结果。
- 软DropBlock有效地从特征图中去除局部信息,收集多样本。
- 一种名为“堆叠NMS”的新型NMS,通过施加额外限制,抑制低估不确定性的结果,同时保留可靠结果。
#### 2. 方法
EPrOD采用了著名的单阶段目标检测器YOLOv3,并结合自适应空间特征融合(ASFF)作为骨干网络。其整体框架包含四个主要模块:反照率提取、应用软DropBlock的目标检测器、堆叠NMS和帧间处理。
##### 2.1 反照率提取
传统的PrOD仅在单域图像中计算近似值,容易受到光源影响而产生有偏差的结果。为了克服这个问题,本文提出使用去除了阴影信息的反照率图像,以减少光源的影响。Bell等人首次提出了提取反照率图像的方法,但该方法由于需要重复进行逐像素操作,耗时较长。为了缩短反照率提取时间,本文提出了基于U-Net的AlbedoNet,它可以将输入图像转换到反照率域。AlbedoNet使用由MS COCO数据集和从MS COCO中提取的反照率图像组成的配对数据集进行训练,其训练目标函数如下:
\[L1 = E[\|G_{R→A}(x) - y\|_1]\]
其中,\(G_{R→A}\)是使用U-Net的AlbedoNet,\(x\)和\(y\)分别表示原始图像和反照率图像。通过AlbedoNet提取的反照率图像不受光源影响,能够在多域中产生潜在目标,从而从多样化的检测结果中得出近似值。
##### 2.2 软DropBlock
基于蒙特卡罗方法的PrOD通过对一些特征图应用dropout并多次推理来获取随机样本。然而,具有高像素间相关性的特征图很难受到dropout的影响,这阻碍了样本的多样性。DropBlock可以通过块级方法有效地去除特征图的局部信息,但它的不连续边界可能会过度去除对检测重要的信息。因此,本文提出了一种新的软DropBlock,它是在DropBlock的基础上应用了盒滤波,定义如下:
\[M_{SDB}(u, v) = \frac{1}{k^2} \sum_{i = u - \frac{k}{2}}^{u + \frac{k}{2}} \sum_{j = v - \frac{k}{2}}^{v + \frac{k}{2}} M_{DB}(i, j)\]
其中,\(M\)表示丢弃掩码,\(u\)和\(v\)表示丢弃掩码中的坐标,\(SDB\)和\(DB\)分别表示软DropBlock和DropBlock,\(k\)表示要丢弃的块大小。软DropBlock产生的平滑边界可以在去除局部信息的同时减少检测信息的损失。
##### 2.3 堆叠NMS
传统的NMS在假设所有检测结果都可靠的前提下提取最终结果。但在实际应用中,不准确的目标候选会增加误判风险。如果在去除部分信息的情况下进行目标检测,通常会产生不准确的边界框。此时应用传统NMS,由于堆叠和重叠不准确的边界框会使细化过程变得复杂,从而严重降低准确性。为了解决这个问题,堆叠NMS通过两步后处理来细化边界框,并计算边界框的出现频率以决定是否保留。其伪代码如下:
```plaintext
Data: Dataset D, Object detector F, IOU threshold τ1, τ2, Grouped boxes threshold β, number of inferences I
for all frame d ∈ D do
R, O ← ∅ // final results and observations of each inference
for all i < I do
Bi = F(d)
O = O ∪ NMS(Bi, τ1)
end for
selectedall ← False
for all ol ∈ O do
Gl ← ∅ // groups containing closely located elements
if ol has no group then
for all arbitrary ox without group do
Gl ← put ox into Gl where IoU(ol, ox) ≥ τ2
end for
end if
put mean(Gl) into R where n(Gl) ≥ β
end for
end for
return R
```
堆叠NMS有两个优
0
0
复制全文
相关推荐

