Parsing R-CNN for Instance-Level Human Analysis(CVPR2019)论文阅读-CSDN博客

本文链接：https://blog.csdn.net/carlous0/article/details/101424400

Abstact

Introduction

3.Parsing R_CNN

3.1Proposal Separation Sampling

3.2Enlarging RoI Resolution

3.3Geometric and Context Encoding

3.4Parsing Branch Decoupling

4.Experiments

4.1Implementation Details

4.2Experiments onHuman Part Segmentation

4.3Experiments on Dense Pose Estimation

5.Conclusion

Abstact

实例级人体解析在生活场景中是很常见的，也有许多表现形式，比如人体部件分割、稠密姿态估计、人-物交互等。模型需要判别不同人实例，学习丰富的特征来表示每个实例的细节。在这篇文章中，我们提出一个端到端的pipeline来解决实例级人体解析，叫做parsing r-cnn。它通过综合考虑基于区域的方法特性和人体表观，表示实例细节，同时处理一组人体实例。

Introduction

因为深度学习的发展，许多现有的方法都采用一个两阶段的Pipeline，1.MaskRCNN（检测人）2.并行地预测一个class-aware mask。这些方法已经很成功，但是在实例人体解析还存在问题：1.mask分支用来预测class-agnostic实例mask，但是实例级人体解析需要更多细节的特征。2、人体解析需要人体部件或稠密点间的几何和语义信息，现有方法也都没有体现这一点。所以提出简洁有效的Parsing R_CNN

研究从以下四个方面探索实例人体解析的问题：

1.为了增强特征语义信息，保持特征分辨率，使用可分离采样。

人体通常在图像中占据比较大的比例。因此ROIPool通常在粗糙分辨率特征图上执行。但是这会丢失许多实例细节信息。在这个工作中在特征金字塔中采用可分离采样，最后细化阶段使用roipool

2.为了得到更仔细的信息，我们增大了roi分辨率。

因为人体解析任务通常在12人或者12类中判别。它需要增大特征图分辨率。

3。提出几何和上下文编码方法，来增大感受野，捕捉不同部件间的关系。

它是一个由两个部分组成的轻量组。第一个部件用来得到多个Level感受野和上下文信息；第二个部件是用来学习几何关联。

3.Parsing R_CNN

3.1Proposal Separation Sampling

在FPN和mask R-cnn里，分配策略是把ROI根据不同尺度分配到对应的特征金字塔。通常，大的roi被分配到粗糙分辨率的特征图。但是，我们发现这种策略在实例人体解析中不是最优的。因为小实例不能被准确标注，人体实例通常占据比较大的部分。如图3所示，在COCO数据集中少于20%的实例占据大于图像10%，而CIHP,MHP分别是74%、86%、。在这种比例下，根据FPN提出的分配策略，大部分实例别分到粗糙分辨率的特征图。实例级人体解析通常需要人体一些细节信息，但是粗糙分辨率的特征图不能提供。

所以提出pps,建议分离采样，提取细节特征，也保留了多尺度特征表达。bbox分支依然采用FPN的尺度分配策略(p2-p5)，但是解析分支的RoIPool/RoIAlign只在最精细的特征图(P2)上进行。金字塔特征表示有利于目标检测，同时通过从最精细特征图上提取特征，保留了人体细节。

3.2Enlarging RoI Resolution

之前基于区域的方法，为了充分利用预训练的参数，ROIPOOL把一个roi转换到固定大小的特征图7*7或者14*14。但是大多数人体实例在特征图中占据比较大的比例，太小的ROI会丢失许多细节。比如，一个160*64的人体，在P2上是40*16，缩放到14*14会减小预测精度。在木匾检测和实例分割任务重，可能不需要准确预测实