【论文阅读】Structured Knowledge Distillation for Semantic Segmentation

最新推荐文章于 2022-05-05 21:11:23 发布

思惘

最新推荐文章于 2022-05-05 21:11:23 发布

阅读量564

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习文章标签：深度学习神经网络人工智能

12 篇文章

订阅专栏

本文介绍了一种利用知识蒸馏改进紧凑型语义分割网络的方法，通过设计Pixel-wise、Pair-wise和Holistic三种蒸馏损失，有效提高了轻量级网络的预测精度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

概述

这篇论文来自CVPR2019 Oral。

论文的出发点：语义分割的模型往往很难兼顾速度与精度，也因此语义分割的网络分为两类，论文中描述为 cumbersome segmentation network与 compact segmentation network，简单地说一个注重精度，一个注重速度。这篇论文利用知识蒸馏来提高compact segmentation network的精度。
论文的创新点（核心）：知识蒸馏不是什么新鲜的东西，论文的核心主要是几个loss的设计，最后一个Discriminator的loss也是亮点，然后就是用复杂网络去teach轻量级网络来提高Prediction的精度，这一点让人（至少我是这样的）眼前一亮。
论文中不明白的地方：在loss函数中有两个点不是很清楚概念， Wasserstein distance和 Kullback-Leibler divergence，两个名词听说过，有时间再看一下。

整体的网路如下图所示
在这里插入图片描述

结构很明朗，下面看一些几个loss的设计：
Pixel-wise distillation：两个网络输出feature-map之间的像素之间的差距，用Kullback-Leibler divergence来度量
Pair-wise distillation：这个loss好像是来自其他论文的启发，直接拿来用了，看公式定义不难理解
Holistic distillation：这个loss采用了典型的GAN的处理方式，将两个网络的输出分别与原图concatenate，以一种 conditional generative adversarial learning方式进行训练。其中把复杂网络的输出视为real sample，把简单网络的输出视为fake sample。loss公式如下
训练过程
Train the discriminator：训练鉴别器，就是对 $l_{ho}$ 做一个minimize，简单明了。
Train the compact segmentation network：训练分割网络时就是对如下的目标函数做一个minimize.