Separable Convolution与常规卷积介绍对比

最新推荐文章于 2024-05-16 02:19:10 发布

转载最新推荐文章于 2024-05-16 02:19:10 发布 · 296 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：https://yinguobing.com/separable-convolution/#fn2

文章标签：

#神经网络 #深度学习 #人工智能

深度可分离卷积是一种在移动端设备上优化神经网络的方法，它将传统卷积分解为Depthwise和Pointwise两步，显著减少参数数量和运算成本。Depthwise卷积对每个通道独立进行卷积，Pointwise卷积则通过1x1卷积组合通道信息生成新的特征图。在保持输出维度不变的情况下，Separable Convolution的参数量约为常规卷积的1/3，使得网络可以构建得更深层。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

转载：https://yinguobing.com/separable-convolution/#fn2

移动端设备的硬件性能限制了神经网络的规模。本文尝试解释一种被称为Separable Convolution的卷积运算方式。它将传统卷积分解为Depthwise Convolution与Pointwise Convolution两部分，有效的减小了参数数量。一些轻量级的网络，如mobilenet中，会有深度可分离卷积(depthwise separable convolution)，由depthwise(DW)和pointwise(PW)两个部分结合起来，用来提取特征feature map。其参数数量和运算成本比较低。

常规卷积操作

对于一张5x5像素、三通道(shape为5x5x3)，经过3x3卷积核的卷积层（假设输出通道数为4，则卷积核shape为3x3x3x4，最终输出4个feature map，如果有same padding，则尺寸与输入层相同（5x5），如果没有则尺寸变为3x3）
在这里插入图片描述
卷积层共4个filter，每个filter包含了3个kernel，每个kernel的大小为3x3.因此，卷积层的参数数量可以用如下公式来计算：

N_std = 4x3x3x3 = 108

Separable convolution

Separable Convolution在Google的Xception以及MobileNet论文中均有描述。它的核心思想是将一个完整的卷积运算分解为两步进行，分别为Depthwise Convolution与Pointwise Convolution。

Depthwise convolution

Depthwise convolution的一个卷积核负责一个通道，一个通道只被一个卷积核卷积。
同样是上述例子，一张5x5像素、三通道的彩色输入图片（shape为5x5x3），depthwise convolution首先经过第一次卷积运算，DW完全是在二位平面内进行。卷积核的数量与上一层的通道数相同（通道和卷积核一一对应）。所以一个三通道的图像经过运算后生成了3个feature map（如果有same padding则尺寸与输入层相同，为5x5），如下图所示：
在这里插入图片描述
其中一个filter只包含一个大小为3x3的kernel，卷积部分的参数个数计算如下：

N_depthwise = 3x3x3 = 27

Depthwise convolution完成后的feature map数量与输入层的通道数相同，无法扩展feature map，而且这种运算对输入层的每个通道独立进行卷积运算，没有有效的利用不同通道在相同空间位置上的feature信息。因此，需要pointwise convolution来将这些feature map进行组合生成新的feature map。

Pointwise convolution

Pointwise convolution的运算与常规卷积运算非常相似，它的卷积核的尺寸为1x1xM，M为上一层的通道数。所以这里的卷积运算会将上一步的map在深度方向上进行加权组合，生成新的feature map。有几个卷积核就有几个输出feature map。
在这里插入图片描述
由于采用的是1x1卷积的方式，此步中卷积涉及到的参数个数可以计算为：

N_pointwise = 1x1x3x4 = 12

经过pointwise convolution之后，同样输出了4张feature map，与常规卷积的输出维度相同。

参数对比

回顾一下，常规卷积的参数个数为：

N_std = 3x3x3x4 = 108

Separable convolution的参数由两部分相加得到：

N_depthwise = 3x3x3 = 27
N_pointwise = 1x1x3x4 = 12
N_separable = N_depthwise + N_pointwise = 39

相同的输入，同样是得到4张feature map，separable convolution的参数个数是常规卷积的约1/3。因此，在参数量相同的前提下，采用separable convolution的神经网络层数可以做的更深。

TIPs：也就是说，depthwise convolution层，只改变feature map的大小，不改变通道数；而pointwise convolution层，只改变通道数，不改变大小。这样将常规卷积的做法（改变大小和通道数）拆分成两步走。