神经网络的序列判别式训练
1. 训练准则
基于神经网络的语音识别系统最常用的序列判别式训练准则包括最大互信息(MMI)、增强最大互信息(BMMI)、最小音素错误(MPE)和状态级最小贝叶斯风险(sMBR)。在详细介绍这些技术之前,先定义一些后续会用到的符号:
- (T_m):第 (m) 个话语的总帧数。
- (N_m):第 (m) 个话语的总单词数。
- (\theta):模型参数。
- (\beta):声学缩放因子。
- (S = { (o_m, w_m) | 0 \leq m < M }):训练集。
- (o_m = o_{m1}, \cdots, o_{mt}, \cdots, o_{mT_m}):第 (m) 个话语的观察序列。
- (w_m = w_{m1}, \cdots, w_{mt}, \cdots, w_{mN_m}):第 (m) 个话语的正确单词转录。
- (s_m = s_{m1}, \cdots, s_{mt}, \cdots, s_{mT_m}):与 (w_m) 对应的状态序列。
1.1 最大互信息(MMI)
MMI 准则旨在最大化观察序列和单词序列分布之间的互信息,这与最小化预期句子错误高度相关。MMI 目标函数可写为:
[
J_{MMI}(\theta; S) = \sum_{m=1}^{M} J_{MMI}(\theta; o_m, w_m) = \sum_{m=1}^{M} \log P(w_m|o_m; \theta) = \sum_{m=1}^{M} \log \frac{p(o_m|s_m; \theta)^{\beta} P(w_m