深度神经网络的原始多通道处理技术解析
在语音处理领域,深度神经网络在多通道处理方面展现出了巨大的潜力。本文将深入探讨原始多通道处理的相关技术,包括原始波形模型与对数梅尔特征模型的比较、时间差到达(TDOA)知识的应用、空间和频谱选择性的分解以及自适应波束形成等内容。
1. 原始波形多通道CLDNN与对数梅尔特征模型的比较
-
滤波器数量对原始波形模型的影响
- 增加滤波器数量可以提高网络利用方向线索的能力,因为更多的滤波器能带来更好的空间多样性。从表1可以看出,对于两通道输入的网络,在128个滤波器时性能提升趋于饱和;而四通道和八通道网络在256个滤波器时仍能继续改善。
| 滤波器数量 | 2 ch (14 cm) | 4 ch (4–6–4 cm) | 8 ch (2 cm) |
| ---- | ---- | ---- | ---- |
| 128 | 21.8 | 21.3 | 21.1 |
| 256 | 21.7 | 20.8 | 20.6 |
| 512 | – | 20.8 | 20.6 |
- 增加滤波器数量可以提高网络利用方向线索的能力,因为更多的滤波器能带来更好的空间多样性。从表1可以看出,对于两通道输入的网络,在128个滤波器时性能提升趋于饱和;而四通道和八通道网络在256个滤波器时仍能继续改善。
-
原始波形模型与对数梅尔特征模型的性能对比
- 对数梅尔特征模型在增加滤波器数量或麦克风通道数量时,对字错误率(WER)的影响不大。这是因为对数梅尔特征是通过快速傅里叶变换(FFT)幅度计算得到的,丢失了精细的时间结构和麦克风间延迟信息,只能利用较弱的麦克风间电平差异线索。而原始波形模型的多通道时域滤波器组利用了精细的时间结