STDCnetwork BiSeNet 的实时语义分割的rethinking

本文提出了一种新型的高效网络结构STDCnetwork,通过移除BiSeNet的结构冗余,使用Short-TermDenseConcatenate模块减少计算成本,同时通过细节聚合模块在单流解码器中集成空间信息。实验证明在Cityscapes和CamVid数据集上,STDCnetwork在保持高精度的同时,显著提高了推理速度,如在NVIDIA GTX1080Ti上分别达到71.9% mIoU和250.4 FPS。

(STDCnetwork)Rethinking BiSeNet For Real-time Semantic Segmentation重新思考 BiSeNet 的实时语义分割

BiSeNet [28, 27] 已被证明是一种流行的用于实时分割的双流网络。 然而,其添加额外路径来编码空间信息的原理是耗时的,并且由于任务特定设计的不足,从预训练任务(例如图像分类)中借用的主干可能对图像分割效率低下。 为了解决这些问题,我们通过去除结构冗余,提出了一种名为 Short-Term Dense Concatenate network (STDC network) 的新颖高效的结构。 具体来说,我们逐渐降低特征图的维数,并将它们的聚合用于图像表示,这形成了 STDC 网络的基本模块。 在解码器中,我们提出了一个细节聚合模块,将空间信息的学习以单流的方式集成到低层。 最后,融合低层特征和深层特征来预测最终的分割结果。 在 Cityscapes 和 CamVid 数据集上的广泛实验证明了我们方法的有效性,通过在分割精度和推理速度之间实现有希望的权衡。 在 Cityscapes 上,我们在 NVIDIA GTX 1080Ti 上以 250.4 FPS 的速度在测试集上实现了 71.9% 的 mIoU,比最新方法快 45.2%,在推断更高分辨率的图像时以 97.0 FPS 的速度实现了 76.8% 的 mIoU。 代码可在 https://github.com/MichaelFan01/STDC-Seg 获得。

前言

语义分割是计算机视觉中一个经典的基础主题,旨在为图像分配像素级标签。 深度学习的繁荣通过各种突破极大地提升了语义分割的性能[18,27,22,4],伴随着许多应用的快速增长需求,例如自动驾驶、视频监控、机器人传感等 . 这些应用激励研究人员探索有效和高效的分割网络,特别是在移动领域。
为了满足这些需求,许多研究人员建议设计具有令人满意的分割精度的低延迟、高效的 CNN 模型。 这些实时语义分割方法在各种基准测试中取得了可喜的性能。 对于实时推理,一些工作,例如 DFANet [18] 和 BiSeNetV1 [28] 选择轻量级骨干网,并研究特征融合或聚合模块的方法以补偿精度下降。 然而,由于任务特定设计的不足,这些从图像分类任务中借来的轻量级主干可能并不完美地解决图像分割问题。 除了轻量级主干的选择外,限制输入图像大小是提高推理速度的另一种常用方法。 较小的输入分辨率似乎是有效的,但它很容易忽略边界和小物体周围的细节外观。 为了解决这个问题,如图 2(a) 所示,BiSeNet [28, 27] 采用多路径框架来结合低级细节和高级语义。 添加额外的路径来获取低级特征是耗时的,而辅助路径总是缺乏低级信息引导。

为此,我们提出了一种新颖的手工网络,目的是为了更快的推理速度、可解释的结构和与现有方法相比具有竞争力的性能。
首先,我们设计了一种新颖的结构,称为 Short-Term Dense Concatenate 模块(STDC 模块),以获得具有几个参数的变体可扩展感受野。 然后,将 STDC 模块无缝集成到 U-net 架构中,形成 STDC 网络,极大地提升了语义分割任务中的网络性能。
具体来说,如图 3 所示,我们将来自多个连续层的响应图连接起来,每个层都对不同尺度和各自领域的输入图像/特征进行编码,从而实现多尺度特征表示。 为了加快速度,层的过滤器大小逐渐减小,分割性能的损失可以忽略不计。 STDC网络的详细结构见表2。
在解码阶段,如图2(b)所示,不是使用额外耗时的路径,而是采用细节引导来引导低层学习空间细节。 我们首先利用 Detail Aggregation 模块来生成详细的 ground-truth。 然后,使用二元交叉熵损失和骰子损失来优化细节信息的学习任务,这被认为是边信息学习的一种。 应该注意的是,推理时不需要这个辅助信息。 最后,融合来自低层的空间细节和来自深层的语义信息来预测语义分割结果。 我们方法的整体架构如图 4 所示。

pic

图 2. BiSeNet [28] 的架构说明和我们提出的方法。 (a) 提出了双边分割网络 (BiSeNet [28]),它使用额外的空间路径来编码空间信息。 (b) 展示了我们提出的方法,该方法使用 Detail Guidance 模块对低级特征中的空间信息进行编码,而无需额外的耗时路径。

pic

图 3. (a) 通用 STDC 网络架构。 ConvX 操作是指 Conv-BN-ReLU。 (b) 我们网络中使用的短期密集连接模块(STDC 模块)。 M 表示输入通道的维度,N 表示输出通道的维度。 每个块都是具有不同内核大小的 ConvX 操作。 © 步长 = 2 的 STDC 模块。

(注 CONV-cnn bn-batchnorm relu)

我们的主要贡献可以总结如下: • 我们设计了一个短期密集连接模块(STDC 模块)来提取具有可扩展感受野和多尺度信息的深层特征。 该模块以可承受的计算成本提高了我们的 STDC 网络的性能。
• 我们建议使用细节聚合模块来学习解码器,从而在低层中更精确地保存空间细节,而无需在推理时间增加额外的计算成本。
• 我们进行了广泛的实验来展示我们方法的有效性。 实验结果表明,STDC 网络在 ImageNet、Cityscapes 和 CamVid 上取得了新的最先进的结果。
具体来说,我们的

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值