Learning Guided Attention Masks for Facial Action Unit Recognition 阅读笔记

最新推荐文章于 2022-06-12 19:08:02 发布

原创最新推荐文章于 2022-06-12 19:08:02 发布 · 644 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习

信安专栏收录该内容

10 篇文章

订阅专栏

本文介绍了一种基于AU（Action Unit）引导的注意力机制方法，旨在减小人类与机器对面部表情感知的差异。通过在DenseNet中引入注意力模块，增强网络对关键面部特征的学习能力。实验使用了BP4D、MMSE和DISFA等多个数据集。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目标：减小人类和机器对于表情的感知差异
方法：提出一种引导注意力机制，以方便网络获取面部重要特征。从AU中学习注意力映射。
使用数据集： BP4D, MMSE and DISFA

结构：
如图1，使用4个密集块组成的Densenet，第二块的输出连接到掩蔽网络，该网络为给定的样本学习适当的AU引导掩码。学习到的掩码进一步添加到块2的输出，以注意力加强的特征表示。

使用Densenet进行特征提取：
Densenet属于使用剩余连接的一类网络。具体来说，就是densenet每一层都连接到同一块内的后续层。如果F_n表示在第n层应用的非线性函数集，则该层的输出x_n为：x_n=f_n([x_1,x_2,…,x_n-1])
该文中对Densenet-121结构进行改动。传统的Densenet由一系列密集块组成，每个块的末尾有一个最大池层来对特征进行下采样。最后，在四个密集块的末尾，构造了一个全局池层和分类层。
面部动作的一个关键特征是其间的内部AU相关性。AU很少单独发生，通常与其他AU同时发生。这种相关性使用完全连接的网络进行有效的建模。该文再最终分类层前添加一个带有1024个神经元的全连接层。

AU引导的空间注意力映射
一个注意力网络对图像/特征映射中每个与任务相关的点增加权重。
AU引导注意力：理想情况下，关注模型仅关注与特定AU最相关的区域。利用先验知识（不同AU影响的特定位置）来构造注意力稀疏网络。
在这里插入图片描述

将不同AU表示为面部关键点运动的集合。如下表：
在这里插入图片描述
使用像素平均方差损失：

端到端注意力学习：
掩码网络用于学习给定的一组输入特征的适当注意映射。该掩码不是强制注意力掩码，而是整合到中间层。第二个密集块在池层后的输出作为掩码网络的输出。网络中越接近输入层越倾向于检测基本轮廓和部分，越靠近分类层越倾向于AU预测。中间层如块2，在Densenet中捕获基于形状和外观的特征。由于引导注意掩码在很大程度上取决于图像中存在的AU，因此使用中间特征作为输入来学习注意掩码是合乎逻辑的。

实验结果：
在这里插入图片描述