语义分割--(PAN)Pyramid Attention Network for Semantic Segmentation

最新推荐文章于 2025-06-10 09:06:16 发布

DFann

最新推荐文章于 2025-06-10 09:06:16 发布

阅读量1.7w

点赞数 9

CC 4.0 BY-SA版权

分类专栏：语义分割深度学习语义分割-目标检测论文解读文章标签： PAN 语义分割注意力机制

本文链接：https://blog.csdn.net/u011974639/article/details/82222866

深度学习同时被 3 个专栏收录

27 篇文章

订阅专栏

语义分割-目标检测论文解读

27 篇文章

订阅专栏

语义分割

22 篇文章

订阅专栏

论文提出Pyramid Attention Network(PAN)用于语义分割，结合注意力机制和空间金字塔结构提取精准密集特征。引入Feature Pyramid Attention module学习更好特征表示，引入Global Attention Upsample module引导low - level特征选择信息。PAN在PASCAL VOC 2012和Cityscapes上表现优异。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Pyramid Attention Network for Semantic Segmentation

原文地址：PAN

备注：这篇文章和DFN类似。

Introduction

Abstract

论文提出了Pyramid Attention Network(PAN)网络用于探究全局上下文信息在语义分割中的影响。论文结合了注意力机制和空间金字塔结构用于提取精准密集的特征。具体来讲，论文引入了Feature Pyramid Attention module应用于high-level的特征上，通过空间金字塔注意力结构并结合全局上下文信息，用于学习更好的特征表示。引入Global Attention Upsample module在每个decoder层上引导low-level的特征选择空间信息。论文提出的PAN在PASCAL VOC 2012 and Cityscapes上获得了优异的表现。

Motivation

现存的语义分割结构在编码高维信息时，会受到空间分辨率的损失的影响。如图：

这里写图片描述

FCN作为backbone的结构对小型目标预测不佳，论文认为这存在两个挑战。

物体因为多尺度的原因，造成难以分类。针对这个问题，PSPNet和DeepLab引入了PSP和ASPP模块引入多尺度信息。论文引入了像素级注意力用于帮助提取精准的high-level 特征。
high-level的特征偏向于对类别分类，缺乏空间信息。针对这个问题，常见的操作是采用U-shape结构网络，例如SegNet、Refinenet等。使用low-level帮助high-level恢复图片细节。然后这些都是很耗时的，论文提出了有效的decoder结构，称之为Global Attention Upsample(GAU),可以提取high-level的全局上下文用于对low-level信息加权。

Contributions

论文的主要贡献在于：

提出了Feature Pyramid Attention module(FPA)将不同尺度上下文特征嵌入到现存的FCN结构上
提出了Global Attention Upsample(GAU)，一个有效的decoder模块
基于FPA和GAU，提出了Pyramid Attention Network(PAN)网络，在VOC2012 and cityscapes上获得了先进表现

Architecture

论文提出的PAN网络是基于Feature Pyramid Attention module(FPA)和Global Attention Upsample(GAU)，这里分步一个一个介绍。

Feature Pyramid Attention

PSPNet和DeepLab使用的PSP或ASPP结构结构如下：

这里写图片描述

PSPNet使用池化操作会有空间信息上的损失。DeepLab使用扩张卷积会存在缺少局部信息和”griding”(卷积核退化)现象。

受到注意力机制的启发，论文认为可使用注意力机制，将全局上下文信息作为先验知识引入到通道选择。但是仅仅有通道注意力机制是不够的，这依旧缺乏逐像素信息。论文提出了FPA模块，该模块融合了多尺度信息，以 $3×3$ ， $5×5$ ， $7×7$ 三个卷积做金字塔结构，因为high-level的特征分辨率较小，故使用大的卷积核带来的计算负担不会太多。同时论文引入了全局池化分支用于进一步提升性能。如图所示：

这里写图片描述

得益于金字塔结构，FPA可以融合多尺度信息，产生更佳的像素级注意力应用于high-level特征。不同于PSPNet或ASPP需要做通道降维，论文的做法是上下文信息与原始的特征做逐像素乘。

Global Attention Upsample

现存的decoder结构上，如PSPNet和Deeplab都是直接双线性差值上采样得到预测结果，这可以看成是一个naive decoder。
DUC使用了多通道做reshape操作得到预测结果。这两类都缺乏多尺度信息，难以恢复空间信息。常见的encoder-decoder架构主要考虑使用使用多尺度信息逐步恢复边界，但是这些结构都较为复杂，带了较大的计算消耗。

因为high-level中有着丰富的语义信息，这可以帮助引导low-level的选择，从而达到选择更为精准的分辨率信息。论文提出了GAU结构，通过全局池化提供的全局信息作为指引选择low-level特征。其结构如下：

这里写图片描述