32、神经网络的序列判别式训练

最新推荐文章于 2025-09-17 00:00:00 发布

代码小丑695

最新推荐文章于 2025-09-17 00:00:00 发布

阅读量21

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习赋能语音识别文章标签：神经网络序列判别式训练 MMI

本文链接：https://blog.csdn.net/3c4x5z6v7b/article/details/151338863

深度学习赋能语音识别专栏收录该内容

39 篇文章 ¥69.90 ¥99.00

订阅专栏

超级会员免费看

神经网络的序列判别式训练

1. 训练准则

基于神经网络的语音识别系统最常用的序列判别式训练准则包括最大互信息（MMI）、增强最大互信息（BMMI）、最小音素错误（MPE）和状态级最小贝叶斯风险（sMBR）。在详细介绍这些技术之前，先定义一些后续会用到的符号：
- (T_m)：第 (m) 个话语的总帧数。
- (N_m)：第 (m) 个话语的总单词数。
- (\theta)：模型参数。
- (\beta)：声学缩放因子。
- (S = { (o_m, w_m) | 0 \leq m < M })：训练集。
- (o_m = o_{m1}, \cdots, o_{mt}, \cdots, o_{mT_m})：第 (m) 个话语的观察序列。
- (w_m = w_{m1}, \cdots, w_{mt}, \cdots, w_{mN_m})：第 (m) 个话语的正确单词转录。
- (s_m = s_{m1}, \cdots, s_{mt}, \cdots, s_{mT_m})：与 (w_m) 对应的状态序列。

1.1 最大互信息（MMI）

MMI 准则旨在最大化观察序列和单词序列分布之间的互信息，这与最小化预期句子错误高度相关。MMI 目标函数可写为：
[
J_{MMI}(\theta; S) = \sum_{m=1}^{M} J_{MMI}(\theta; o_m, w_m) = \sum_{m=1}^{M} \log P(w_m|o_m; \theta) = \sum_{m=1}^{M} \log \frac{p(o_m|s_m; \theta)^{\beta} P(w_m

了解本专栏