详解一篇CLIP应用在语义分割上的论文

文章提出DenseCLIP模型解决CLIP在稠密预测领域的应用难题,通过语言指导的稠密预测方法,将image-textmatch的知识转移到pixel-textmatch任务。作者比较了预处理和后处理方法,选择后处理因效率和效果优势,并引入额外损失函数适应不同稠密预测任务。实验在ADE20K上取得积极结果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

来源:投稿 作者:xin
编辑:学姐 

Motivation:

目前虽然已经有很多工作去改进CLIP,但是这些改进都是集中在image-text match级别的分类问题上,很少有人涉足稠密预测领域。故本文在这方面进行了探索,即如何把CLIP训练好的image-text匹配的知识,迁移到下游pixel-text匹配的任务上。

Method

相比于传统的Pre-training + Fine-tuning的范式CLIP类的模型融入了文本信息。将CLIP的知识迁移到稠密预测任务上有两个难点:
1、如何将V-L pretrained利用在稠密预测任务上很少有人涉足,且像之前pretrained backbone一样会忽略语言先验。
2、由于上游对比学习学的是image-text的配对,而稠密预测任务是pixel-text的配对。

为了解决上述问题,本文提出了DenseCLIP模型。模型具体框架如下:

针对将image-text match到pixel-text match的问题,论文提出了语言指导的稠密预测,具体过程为:

其中v_{pre}\in{R^{N\times{C}}}为视觉上下文。然后将基线模板中的p替换为v_{pre},以此达到上下文视觉感知的目的。

作者也进行了两种方式的比较,最终选择了post的方法。因为pre的方法在推理过程中需要text encoder额外的前传(因为其依赖于视觉特征),而post的方法可以预先存储提取出来的文本特征,减少text encoder在推理过程中带来的开销。此外post的结果比pre的好。故选择post方法。

为了将DenseCLIP模型更好的应用于不同的稠密预测任务,作者针对不同任务提出了不同的额外损失函数。由于score map可以看作低分辨率的分割结果,作者使用如下公式计算额外损失:

Result

在ADE20K的分割结果

ADE20K可视化结果

关注下方《学姐带你玩AI》🚀🚀🚀

回复“500”获取AI必读高分论文合集

(包含语义分割等多个细分方向)

码字不易,欢迎大家点赞评论收藏!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值