巴西手语中情感与语法面部表情的识别研究
立即解锁
发布时间: 2025-09-02 00:49:36 阅读量: 11 订阅数: 33 AIGC 


视觉问答与艺术理解
### 巴西手语中情感与语法面部表情的识别研究
#### 1. 面部特征提取与编码
在面部特征处理方面,首先会在面部标记68个白色点 $p_i = (x_i, y_i)$,$i = 1, \cdots, 68$。通过测量眉毛、眼睛和嘴巴的特定距离 $d_2$,例如眼睛的状态可由眼睛相关距离判断是睁开还是闭合,嘴巴则计算上下唇中点的距离。这些测量值会被转换为单个灰度像素。具体来说,会用面部点 $p_i$ 以及距离测量值 $d_2(p_j, p_k)$(其中 $(j, k) \in \{(3, 13), (17, 21), (21, 22), (22, 26), (38, 40), (43, 47), (48, 54), (51, 57), (62, 66)\}$)组成向量,随后将这些向量缩放至0 - 1范围,再编码为灰度级别,最后根据面部区域将这些灰度级别连接起来。
#### 2. 基于CNN的FACS分类
基于Keras实现构建了一个CNN模型。参考相关研究,发现浅层CNN架构在某些情况下优于现代深层CNN。该模型设计时利用了具有五层隐藏层的CNN能够学习高级区分特征这一特性。其结构如下:
- **卷积层**:图像会经过三层卷积层,所有卷积层使用2×2的小内核滤波器,可看作是对输入通道的线性变换后接非线性变换。卷积步长固定为1,对于2×2的卷积层,输入的空间填充为1像素,以保证卷积后空间分辨率不变。
- **池化层**:前两层卷积层后各跟随一个最大池化层,最大池化在3×3窗口上进行,步长为2。
- **全连接层**:最后一层卷积层后有三层全连接层,第一层有4096个通道,第二层有1024个通道,第三层可根据架构进行30路或50路的AU分类。
- **输出层**:使用softmax层,根据是面部上半部分还是下半部分的分类,分别包含30或50个标签。所有激活函数都设置为ReLU(修正线性函数)。
下面是CNN模型结构的mermaid流程图:
```mermaid
graph LR
A[输入图像] --> B[卷积层1]
B --> C[最大池化层1]
C --> D[卷积层2]
D --> E[最大池化层2]
E --> F[卷积层3]
F --> G[全连接层1]
G --> H[全连接层2]
H --> I[全连接层3]
I --> J[softmax层]
```
#### 3. CNN + LSTM用于AUs分类
由于AUs是随时间变化的可观察事件,结合CNN和LSTM来融合静态特征和时间线索,以提高面部表情识别能力。具体网络结构如下:
- **CNN部分**:采用标准的CNN,有三层卷积层,中间穿插两层最大池化层。卷积层的内核大小为3,步长为1。前两层卷积层有32个滤波器,最后一层有64个滤波器。最大池化层的步长为2,所有激活函数设置为ReLU,最后一层是区域池化层。
- **融合层**:添加融合层来建模空间和时间线索之间的相关性,该融合层是特征图的拼接,用于获取区域特征。从CNN得到的面部上半部分有50个滤波器的池化层和下半部分有30个滤波器的池化层。
- **LSTM部分**:将这些特征图输入到LSTM堆栈中以融合时间依赖性,把两帧图像作为序列输入到LSTM中,然后使用多个LSTM堆栈来捕捉面部动作的时间依赖性。
- **输出层**:LSTM的输出聚合到一个密集层进行多标签学习。
以下是CNN + LSTM模型结构的mermaid流程图:
```mermaid
graph LR
A[输入图像] --> B[CNN卷积层1]
B --> C[CNN最大池化层1]
C --> D[CNN卷积层2]
D --> E[CNN最大池化层2]
E --> F[CNN卷积层3]
F --> G[区域池化层]
G --> H[融合层]
H --> I[LSTM堆栈]
I --> J[密集层]
```
#### 4. 实验设置
为了评估上述提出的架构,使用了以下数据集进行实验:
| 数据集名称 | 数据集描述 |
| --- | --- |
| Extended Cohn - Kanade dataset (CK+) | 第一版CK包含97个受试者摆出六种基本情绪的486个序列,每个序列从中性表情开始到情绪顶点结束且进行了AU编码。第二版CK+包含摆拍和非摆拍表情,元数据中添加了经过验证的情绪标签,还提供了面部跟踪、AU和情绪识别的基线结果,AU注释是针对视频而非逐帧的。 |
| DISFA (Denver Intensity of Spontaneous Facial Expressions) | 一个自发表情数据库,包含27个年龄在18 - 50岁的受试者对四分钟情绪视频刺激做出反应的视频,有两名FACS编码人员对12种FACS的5级强度进行手动逐帧标注。该研究团队还构建了扩展的DISFA数据集(DISFA+),包含9名参与者的摆拍和自发面部表情的视频及AU注释。 |
| HM - Libras数据库
0
0
复制全文
相关推荐










