Locount dataset 记录

论文针对传统目标检测在工业环境,尤其是仓库中的局限性,如堆叠物体的检测难题,提出了一种结合定位、分类和计数的新任务。为此,作者构建了一个大规模数据集,包含多个商店的图像,标注了大量实例和类别。CLCNet是基于CascadeR-CNN的改进网络,通过多级细化网络结构解决计数问题。损失函数结合了分类和回归任务,实验结果显示了方法的有效性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文在开头认为传统的目标检测在现实中的工业相关的应用尤其是在仓库这些场景是不太实际的。然后作者提出了一种新的任务,一边要定位目标框和类别,一边还要进行计数。
在这里插入图片描述

不现实的原因有
1、对于一些堆叠的晚餐碟子,哪怕是一个非常杰出的标注者也是很苦难的。
2、对于目标检测器也不太可能能够对堆叠的碟子进行一一检测。

于是作者收集了一个大规模的目标定位和计数的数据集,它是由28和不同的商店,包含了50394张1920*1080的图片。
标注了超过1.9百万的目标实例,具有140个类。9个超类。
训练集有34022张
测试集有16372张
做出的贡献:
定义了一种新的标注方式
定义了一种新的评估方式
给这个任务提出了一个benchmark,CLCNet

1、标注方式

用独立的框标注每一组实例和数量
在这里插入图片描述框的大小分为
small scale subset 小于150150
medium scale subset 150
150 到 300300
large scale subset 大于300
300
目标的数量分为:
individual number subset = 1
medium number subset = 2~10
large number subset >10

2、评估方式

在这里插入图片描述创新就是,在这里插入图片描述
在这里插入图片描述在这里插入图片描述

定义了一个CLCNet

在这里插入图片描述
当 N= 0 时,只是一个faster-rcnn
CLCNet是根据Cascade R-CNN改的
N在这个网络里,作者设置的是3,并且设置了实例的数量最大为50
关于计数网络部分,作者说如果直接回归出一个数量是很困难的,它定义了一个又粗到细的网络,如图中,N等于3
那第一个网络它会取 00,01,10,11
即把64(2的6次方>50)分为4部分
,然后以一个多分类任务去预测它数量所在的区间。
0~16
16~32
32~48
48~64

第二个网络就把64 分为16份
0~4
4~8

60~64
第三个网络就完全的对其进行细分

Loss

作者说了Loss的计算
在这里插入图片描述在这里插入图片描述

其中,多值交叉熵损失和smooth L1 loss 算 分类、回归和 数量。
然后做了实验,结果如下
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值