论文Robust Zero-Shot Crowd Counting and Localization With Adaptive Resolution SAM讲解

论文下载:https://arxiv.org/pdf/2402.17514v2.pdf

论文 Learn to Rectify the Bias of CLIP for Unsupervised Semantic Segmentation详解(PyTorch)

论文 Completely Self-Supervised Crowd Counting via Distribution Matching无监督算法详解

论文CrowdCLIP(基于CLIP的无监督人群计数模型)详解(PyTorch,Pytorch_Lighting)

论文CLIP-Count(基于文本指导的零样本目标计数)详解(PyTorch)

        前面我们已经讲过了关于人群计数无监督的论文,而今天要讲的这篇论文目前是我看到的最新的无监督人群计数算法,但是呢!论文没有给代码,所以下面的讲解只能结合论文给出的理论来大致讲一下,给的这个算法流程以及相关损失函数实现起来难度比较大,也只能是大致给大家看一下这个流程,没有办法具体讲解其中的算法实现。

目录

一 目的和方法

提出目的

提出方法

整体架构

自适应分辨率SAM

点伪标签的鲁棒定位

鲁棒性损失训练

迭代伪标签生成

综合实验

生成的掩码效果对比

可视化对比

消融实验

确定最优的迭代次数

局限性分析


 

一 目的和方法

提出目的

        现有的人群计数模型需要大量标注数据进行训练,而数据标注过程耗时费力。为解决这一问题,提出了一种简单高效的人群计数方法,通过利用基于Segment Anything ModelSAM)改进的Segment-Everything-Everywhere ModelSEEM)生成伪标签来训练计数模型。然而初步研究表明,SEEM在密集人群场景中的表现存在局限,主要问题在于高密度区域会遗漏大量人体目标

提出方法

        提出了自适应分辨率的SEEM模型来处理人群场景中的尺度变化、遮挡和人体重叠问题。同时,基于高斯混合模型开发了一种鲁棒定位方法,用于在预测的人体掩码中确定头部位置。针对掩码和点伪标签,设计了一种鲁棒损失函数,该函数能根据SEEM预测结果排除不确定区域,从而提升计数网络的训练效果。最后,提出了一种迭代式伪标签生成方法,通过在高密度区域识别更多首次标注中遗漏的微小人体目标,逐步提升分割掩码的质量

本文提出了一种基于自适应分割模型的无监督人群计数方法,通过创新性地结合SEEM分割模型与高斯混合定位技术,有效解决了密集场景下的漏检问题。核心创新包括

1)开发自适应分辨率SEEM模型(AdaSEEM),通过动态放大高密度区域提升小目标检测精度

2)提出基于高斯混合模型的头部定位方法,实现精准的点伪标签生成

3)设计双分支鲁棒损失函数,结合掩码与点伪标签优化训练过程

4)采用迭代优化策略逐步完善伪标签质量。实验表明,该方法在无监督条件下达到与全监督方法相当的精度,显著优于现有无监督方案,为缺乏标注数据的实际应用提供了可靠解决方案。

整体架构

2提出的无监督人群计数框架流程:首先采用自适应分辨率SAM模型(AdaSEEM)生成掩码伪标签,通过增强小目标分割能力提升密集人群图像处理效果;接着基于高斯混合模型(GMMsoft-max掩码分布建模,通过鲁棒定位方法预测头部点伪标签;随后使用专门设计的鲁棒损失函数,结合生成的掩码/点伪标签训练计数网络;最后利用训练好的计数网络预测结果,通过迭代过程持续生成新的伪标签以优化模型性能。

自适应分辨率SAM

        SAM作为通用分割模型,通过数百万图像的训练展现出卓越的泛化能力,但其核心缺陷在于无法为分割区域赋予特定类别标签。就像CLIP模型一样,虽然泛化性能很好,单不是应用到每个领域都很好,需要进行一定的改进。

        使用改进版本——具备语义标注能力的Segment-Everything-Everywhere Model (SEEM)尽管SEEM能提供带语义标签的掩码,但由于训练数据中密集人群图像占比较低,其在拥挤场景的小目标检测上仍存在局限。针对这一关键问题提出自适应分辨率SEEMAdaSEEM),通过动态调整处理策略显著提升高密度场景下小尺寸人体的识别效果。具体实施时,首先对原始图像应用SEEM获取三类分割结果:非人体背景区域、不确定区域以及独立人体掩码(如图2所示)。通过计算图像分块中不确定区域占比,对超过阈值τ的区块进行两倍分辨率放大并重新分割,结合非极大值抑制(NMS)融合多次迭代结果,直至所有分块的不确定区域比例低于阈值。这种自适应处理机制通过迭代优化高不确定性区域的分割精度,尤其改善了密集场景小目标的检测效果,从而为人群计数任务提供了更可靠的伪标签基础。

点伪标签的鲁棒定位

鲁棒性损失训练

参考文献[40]:Wan, J., Liu, Z., Chan, A.B.: A generalized loss function for crowd counting and localization. In: CVPR. pp. 1974–1983 (2021)

迭代伪标签生成

综合实验

1:与最新方法的对比。“Point”标签表示使用点标注作为监督,而“None”表示无监督设定(未使用人群标签)。“PointX)”表示该方法在交叉域性能的X数据集上训练。最佳的无监督方法以加粗显示,第二佳用下划线标出。

生成的掩码效果对比

3展示了不同方法生成的掩码效果对比:从左至右依次为SEEM基础模型、自适应分辨率SEEMAdaSEEM)以及AdaSEEM结合迭代预测的结果。其中(c)图中蓝色椭圆标记区域展示了通过迭代优化后新增的伪标签掩码,直观体现了该方法在提升密集区域检测完整性方面的显著改进——相较于前两种方案,(c)结果明显包含了更多被成功识别的小尺寸个体目标。这种渐进式优化策略有效解决了原始SEEM在拥挤场景下的漏检问题,通过迭代机制持续发现并补充高密度区域中遗漏的人员掩码。

4展示了不同方法在SHA数据集上的对比结果,该数据集按人群密度分为三个层级:低密度(人数≤300)、中密度(300<人数≤600)和高密度(人数>600)。

可视化对比

5直观展示了本方法预测的密度图可视化效果。需要特别指出的是,现有无监督方法通常仅能预测人群总数,而无法生成此类能精确反映空间分布特征的密度图。

消融实验

确定最优的迭代次数

为了确定最优的迭代次数,SHTA 进行了实验,结果如图 9 所示。结果表明,性能在第二次迭代时达到峰值,之后性能逐渐收敛。因此,在后续实验中选择进行两次迭代。
超参数 图 6 7 显示了不同超参数值(ω β)的消融研究,图 10 11 展示了不同参数下的消融研究结果。

6展示了朴素定位方法与本文提出的基于高斯混合模型(GMM)的鲁棒定位方法对比结果。

实验结果表明(表3),尽管完全无需人工标注训练,本方法仍展现出超越部分全监督方法的定位精度。虽然在召回率指标上暂时落后于监督方法,但通过第一轮迭代训练后召回率获得显著提升(提升幅度达18.7%),这验证了迭代机制能有效发现并伪标注更多漏检个体。

局限性分析

        提出的方法存在一定的局限性,主要体现在伪标签生成过程耗时较长。该方法需要对所有预测点位进行分割,且处理时长会随着数据集人口密度的增加而上升。为了最大化召回率,预测了大量点位,随后采用非极大值抑制(NMS)算法来合并重叠的掩码,这进一步增加了计算时间。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值