谷歌与微软的语音识别技术研究进展
1. 谷歌语音研究:实现通用语音接口的鲁棒性探索
随着智能手机语音识别的成功普及,用户期望在嘈杂和远场条件下也能拥有同样流畅的语音交互体验,如在智能助手、可穿戴设备或汽车场景中。然而,这种场景转换带来了显著的技术复杂性。
1.1 多通道处理技术
在语音增强领域多年的研究产生了多种算法,以实现远场和/或嘈杂条件下的自动语音识别(ASR)。多麦克风(或多通道)系统通常采用语音增强技术,将多通道输入转换为单通道信号,以减少混响和噪声对识别准确性的负面影响。这一增强过程包括三个阶段:
- 定位 :估计空间滤波应强调或弱化的方向。
- 波束形成 :实现空间滤波,放大特定方向的信号,抑制其他方向的输入。
- 后滤波 :进一步优化信号。
波束形成通常使用最小方差无失真响应或多通道维纳滤波等目标来定义增强信号的品质因数。
然而,多通道处理在实际环境中的应用面临挑战。如果定位估计出现误差,后续的波束形成会增强噪声并抑制语音,从而降低性能。此外,定位、空间滤波和后滤波是通过代理品质因数进行优化的,子部分的优化目标与提高识别准确性的最终目标可能不一致,导致联合系统即使子部分成功优化自身目标,也可能无法受益。
1.2 联合优化与神经网络架构扩展
为了实现联合优化并使其与基于神经网络的模型兼容,谷歌扩展了神经网络架构。具体做法如下:
- 独立于多通道处理,将识别系统的前端处理直接融入神经网络架构。通过卷积输入层,可直接从波形信号处理来