Locount dataset 记录-CSDN博客

本文链接：https://blog.csdn.net/weixin_43628058/article/details/129825231

论文针对传统目标检测在工业环境，尤其是仓库中的局限性，如堆叠物体的检测难题，提出了一种结合定位、分类和计数的新任务。为此，作者构建了一个大规模数据集，包含多个商店的图像，标注了大量实例和类别。CLCNet是基于CascadeR-CNN的改进网络，通过多级细化网络结构解决计数问题。损失函数结合了分类和回归任务，实验结果显示了方法的有效性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文在开头认为传统的目标检测在现实中的工业相关的应用尤其是在仓库这些场景是不太实际的。然后作者提出了一种新的任务，一边要定位目标框和类别，一边还要进行计数。
在这里插入图片描述

不现实的原因有
1、对于一些堆叠的晚餐碟子，哪怕是一个非常杰出的标注者也是很苦难的。
2、对于目标检测器也不太可能能够对堆叠的碟子进行一一检测。

于是作者收集了一个大规模的目标定位和计数的数据集，它是由28和不同的商店，包含了50394张1920*1080的图片。
标注了超过1.9百万的目标实例，具有140个类。9个超类。
训练集有34022张
测试集有16372张
做出的贡献：
定义了一种新的标注方式
定义了一种新的评估方式
给这个任务提出了一个benchmark，CLCNet

1、标注方式

用独立的框标注每一组实例和数量
在这里插入图片描述框的大小分为
small scale subset 小于150150
medium scale subset 150150 到 300300
large scale subset 大于300300
目标的数量分为：
individual number subset = 1
medium number subset = 2~10
large number subset >10

2、评估方式

在这里插入图片描述创新就是，

定义了一个CLCNet

在这里插入图片描述
当 N= 0 时，只是一个faster-rcnn
CLCNet是根据Cascade R-CNN改的
N在这个网络里，作者设置的是3，并且设置了实例的数量最大为50
关于计数网络部分，作者说如果直接回归出一个数量是很困难的，它定义了一个又粗到细的网络，如图中，N等于3
那第一个网络它会取 00,01,10,11
即把64（2的6次方>50）分为4部分
，然后以一个多分类任务去预测它数量所在的区间。
0~16
16~32
32~48
48~64