论文在开头认为传统的目标检测在现实中的工业相关的应用尤其是在仓库这些场景是不太实际的。然后作者提出了一种新的任务,一边要定位目标框和类别,一边还要进行计数。
不现实的原因有
1、对于一些堆叠的晚餐碟子,哪怕是一个非常杰出的标注者也是很苦难的。
2、对于目标检测器也不太可能能够对堆叠的碟子进行一一检测。
于是作者收集了一个大规模的目标定位和计数的数据集,它是由28和不同的商店,包含了50394张1920*1080的图片。
标注了超过1.9百万的目标实例,具有140个类。9个超类。
训练集有34022张
测试集有16372张
做出的贡献:
定义了一种新的标注方式
定义了一种新的评估方式
给这个任务提出了一个benchmark,CLCNet
1、标注方式
用独立的框标注每一组实例和数量
框的大小分为
small scale subset 小于150150
medium scale subset 150150 到 300300
large scale subset 大于300300
目标的数量分为:
individual number subset = 1
medium number subset = 2~10
large number subset >10
2、评估方式
创新就是,
定义了一个CLCNet
当 N= 0 时,只是一个faster-rcnn
CLCNet是根据Cascade R-CNN改的
N在这个网络里,作者设置的是3,并且设置了实例的数量最大为50
关于计数网络部分,作者说如果直接回归出一个数量是很困难的,它定义了一个又粗到细的网络,如图中,N等于3
那第一个网络它会取 00,01,10,11
即把64(2的6次方>50)分为4部分
,然后以一个多分类任务去预测它数量所在的区间。
0~16
16~32
32~48
48~64
第二个网络就把64 分为16份
0~4
4~8
…
60~64
第三个网络就完全的对其进行细分
Loss
作者说了Loss的计算
其中,多值交叉熵损失和smooth L1 loss 算 分类、回归和 数量。
然后做了实验,结果如下