基于模型源分离的多通道空间聚类技术解析
1. 模型训练与空间聚类基础
在音频处理领域,模型训练的数据应反映其实际运行条件。常见的训练方法是使用多条件数据,即让识别器在混合了多种不同噪声的语音数据上进行训练,期望测试时遇到的噪声与训练噪声相似。这种多条件训练对基于高斯混合模型(GMM)和深度神经网络(DNN)的声学模型都有益处。DNN增强系统也可进行针对性训练,以在固定麦克风阵列的不同声源位置,甚至线性阵列的不同麦克风间距下实现泛化。
将模型推广到新的麦克风、声源和房间空间配置时,判别式训练过程成本较高。不过,通过波束形成可以自然地从数据中提取这些信息。传统波束形成假定阵列几何结构已知,这限制了其在新条件下的泛化能力,而无监督的基于定位的聚类方法则避免了这一假设。这种方法已成功应用于双麦克风分离、大型临时麦克风阵列的定位、校准以及时频(T - F)掩码构建等场景,还可应用于分布式麦克风阵列。
空间聚类方法基于时频掩码的思想,通过对频谱图中不同的时频点应用不同的衰减,抑制混合声音中的无用声源。聚类时频点会形成具有相似空间特征的点组,安排每个时频点在各点组中的隶属权重,可得到用于分离单个声源的时频掩码。这种基于掩码的方法与传统的盲源分离(BSS)方法不同,传统BSS方法试图对所有时频点的所有声源进行建模。
2. 多通道语音信号
2.1 时域与频域信号关系
设时域中感兴趣的信号为 $x_1[n]$,若它与 $I - 1$ 个其他信号 $x_i[n]$ 一起在 $J$ 个麦克风处录制,第 $j$ 个麦克风处的信号为 $y_j[n]$,则有:
$$y_j[n] = \sum_{i = 1}^{I} \sum_{l