Research on Face Presentation Attack Detection Based on Illumination Consistency and Texture Feature
[1]蒙少华.基于光照一致化与纹理特征的人脸活体检测研究[D].湖南大学,2022.DOI:10.27135/d.cnki.ghudu.2022.004058.
文章目录
1、Background and Motivation
背景
- 人脸识别技术的广泛应用
- 人脸呈现攻击的多样性
- 现有活体检测技术的局限性
动机
- 提高人脸识别系统的安全性
- 应对复杂多变的攻击手段
- 提升活体检测技术的准确性和鲁棒性
- 推动人脸识别技术的持续发展
2、Related Work
3、Advantages / Contributions
贡献
提出两种创新的人脸活体检测算法:
- 本文针对现有人脸活体检测研究存在的问题,提出了两种基于深度学习的人脸活体检测算法:基于Self-attention融合的双流Vision Transformers人脸活体检测算法(TSViT)和基于纹理梯度增强和多尺度融合的人脸活体检测算法(FPAD-TGE)。
设计和实现人脸活体检测系统:
- 基于提出的TSViT算法,设计和实现了一个人脸活体检测系统。该系统能够在光照条件差异较大的情况下正确区分活体人脸和假体人脸,并同时进行人脸识别,为人脸活体检测、人脸识别及其它相关研究工作提供了良好的验证平台。
创新点
- 基于Self-attention融合的双流Vision Transformers人脸活体检测算法(TSViT)——双流框架、Self-attention特征融合
- 基于纹理梯度增强和多尺度融合的人脸活体检测算法(FPAD-TGE)——纹理梯度增强、多尺度融合
- 实验验证与性能提升
4、Methods and Experiments
4.1、Datasets and Metrics
NUAA 数据集
CASIA-FASD 数据集
Replay-Attack 数据集
OULU-NPU 数据集
4.2、基于 Self-attention 融合的双流 Vision Transformers 人脸活体检测算法研究
RGB 颜色空间和 MSRCR(Multi-scale retinex with colorre storation) 图像
Self-attention
本章基于 Self-attention 的特性,提出一种基于 Self-attention 的特征融合方法(SAF),可以将 RGB 特征和 MSRCR 特征有效地、自适应地融合,更充分地利用两种特征的优点,得到更具区分性的融合特征,从而提高人脸活体检测算法的性能。
Vision Transformer
双流 Vision Transformers(TSViT)
双流 Vision Transformers 特征提取模块
本章提出的算法所使用的 ViT 模型与标准的 ViT 模型略有不同,采用了Hybrid 混合结构,即是将 Transformer 和标准卷积神经网络特征提取进行组合来代替直接分块的操作,后续部分与标准的 ViT 模型一致
基于 Self-attention 的特征融合模块,SAF
N = 2 ?
消融实验:本章的消融实验在 OULU-NPU 数据集的协议 1 上进行分析和评估。
实 验 结 果 说 明 了 相 比 HSV 和 YCbCr 颜色空间的图像,RGB 颜色空间的图像更适合与 MSRCR 空间的图像进行特征融合,更具互补性。
实验结果充分验证了 RGB 人脸图像和 MSRCR 人脸图像的互补性,以及充分证明了双流 Vision Transformers 框架的有效性。
OULU-NPU 的实验结果
CASIA-FASD 和 Replay-Attack 的实验结果
跨数据集间的实验结果
仍然取得有竞争力的结果
4.3、基于纹理梯度增强和多尺度融合的人脸活体检测算法研究
FPAD-TGE(Face Presentation Attack Detection Based on Texture Gradient Enhancement)
提出了一种具有通用性的纹理梯度增强方法(Depth separable residual gradient enhancement block,DSRGEB)
提出了一种多尺度融合方法(Multi-scale dilated convolution block,MDCB),低成本地扩大感受野,得到包含丰富上下文信息的特征用于最后的分类预测。实验分析和验证了本章提出的纹理梯度增强方法和多尺度融合方法的有效性,
FPAD-TGE 整体结构
本章提出一种基于纹理梯度增强和多尺度融合的人脸活体检测算法(FPAD-TGE),其中设计了一种深度可分离残差梯度增强模块(DSRGEB)和一种多尺度空洞卷积模块(MDCB)
采用 DSRGEB 分别对低层次、中层次、高层次的特征进行纹理梯度增强,
对纹理梯度增强的特征采用 MDBC进行融合,多个尺度的特征图进行拼接并进行卷积操作,得到包含丰富上下文信息的特征用于最后的分类预测。
主干 ConvNeXt 网络结构
深度可分离残差梯度增强模块(DSRGEB)
Depth-wise separable convolution 中间引入了 sobel 算子
多尺度空洞卷积融合模块(Multi-scale dilated convolution block,MDCB)
消融实验在 OULU-NPU 数据集的协议 1 上进行分析和评估
OULU-NPU 的实验结果
CASIA-FASD 和 Replay-Attack 的实验结果
和上一章提出的方法 TSViT 伯仲之间,各有千秋
4.4、人脸活体检测系统的设计与实现
设计和实现了一个基于 Self-attention 融合的双流 Vision Transformers(TSViT)的人脸活体检测系统
5、Conclusion(own) / Future work
- 纹理梯度增强——conv 中引入 sobel 算子——用于纹理增强
- MSRCR(Multi-scale retinex with colorre storation) 是一种用于图像增强的算法,它基于Retinex理论,旨在通过模拟人眼对光线的处理机制,对图像进行颜色和亮度的调整,以达到图像增强的效果。具有光照一致性的特点
- 双流 Vision Transformers(TSViT)
未来工作
- 提高人脸活体检测的泛化性能
- 扩大数据集规模和多样性
- 扩充至未知的攻击类型是人脸活体检测研究(不局限于 image 和 video)
- 轻量化,平衡性能和成本是人脸活体检测
更多论文解读,请参考 【Paper Reading】