详解一篇CLIP应用在语义分割上的论文

最新推荐文章于 2025-02-10 23:02:38 发布

原创最新推荐文章于 2025-02-10 23:02:38 发布 · 1k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能 #计算机视觉 #语义分割

深度学习干货同时被 3 个专栏收录

704 篇文章

订阅专栏

人工智能干货

677 篇文章

订阅专栏

粉丝的投稿

200 篇文章

订阅专栏

文章提出DenseCLIP模型解决CLIP在稠密预测领域的应用难题，通过语言指导的稠密预测方法，将image-textmatch的知识转移到pixel-textmatch任务。作者比较了预处理和后处理方法，选择后处理因效率和效果优势，并引入额外损失函数适应不同稠密预测任务。实验在ADE20K上取得积极结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

来源：投稿作者：xin
编辑：学姐

Motivation:

目前虽然已经有很多工作去改进CLIP，但是这些改进都是集中在image-text match级别的分类问题上，很少有人涉足稠密预测领域。故本文在这方面进行了探索，即如何把CLIP训练好的image-text匹配的知识，迁移到下游pixel-text匹配的任务上。

Method

相比于传统的Pre-training + Fine-tuning的范式CLIP类的模型融入了文本信息。将CLIP的知识迁移到稠密预测任务上有两个难点：
1、如何将V-L pretrained利用在稠密预测任务上很少有人涉足，且像之前pretrained backbone一样会忽略语言先验。
2、由于上游对比学习学的是image-text的配对，而稠密预测任务是pixel-text的配对。