语音处理中的信号分离与神经网络技术
立即解锁
发布时间: 2025-09-08 01:22:22 阅读量: 10 订阅数: 14 AIGC 


盲源分离与机器学习
### 语音处理中的信号分离与神经网络技术
在语音处理领域,信号分离和去混响是重要的研究方向。本文将介绍相位修正、排列不变训练、矩阵分解与神经网络结合以及时频谱神经分解等关键技术,探讨它们在语音信号处理中的应用和效果。
#### 1. 相位修正与非负理想相位敏感掩码(NIPSM)
在信号分离中,混合信号 $x_{mix}^i$ 和源信号 $x_{si}$ 的相位分别用 $\theta_{mix}^i$ 和 $\theta_{si}$ 表示。为了进行相位修正,会考虑相位差 $\theta_{mix}^i - \theta_{si}$。为避免出现负掩码,采用非负理想相位敏感掩码(NIPSM),其表达式为:
\[m_{NIPSM}^{si} = \max(0, m_{IPSM}^{si})\]
在实现信号分离时,需要估计掩码函数。通常,如式(2.82)中的 softmax 函数、式(2.51)中的 sigmoid 函数、式(2.11)中的双曲函数和式(2.50)中的修正线性单元等,都适合作为激活函数来估计这些掩码函数,以获得合理的掩码值范围。
#### 2. 排列不变训练(PIT)
排列不变训练算法用于单声道语音分离,尤其适用于说话者身份事先未知的多说话者语音分离任务。
##### 2.1 训练准则
- **基于掩码的训练准则**:不同源 $s$ 在时频(T - F)单元 $i$ 的掩码函数通过优化学习目标来估计。一种简单的训练准则基于平方和误差函数:
\[E_m(w) = \| \hat{M}(w) - M \|^2 = \frac{1}{SN} \sum_{s = 1}^{S} \sum_{i = 1}^{N} (\hat{m}_{si}(w) - m_{si})^2\]
其中,$M = \{m_{si}\}$ 是理想掩码函数,$\hat{M}(w) = \{\hat{m}_{si}(w)\}$ 是由参数为 $w$ 的深度模型驱动的估计掩码函数。
- **基于重构信号的训练准则**:在语音分离任务中,使用源信号 $x_{si}$ 和混合信号 $x_{mix}^i$ 的静音段的理想掩码 $m_{si}$ 定义并不明确。可以根据重构源信号 $\hat{X}(w)$ 和真实源信号 $X$ 之间的平方和误差函数构建有意义的训练准则:
\[E_x(w) = \| \hat{X}(w) - X \|^2 = \frac{1}{SN} \sum_{s = 1}^{S} \sum_{i = 1}^{N} (\hat{x}_{si}(w) - x_{si})^2 = \frac{1}{SN} \sum_{s = 1}^{S} \sum_{i = 1}^{N} (\hat{m}_{si}(w)x_{mix}^i - x_{si})^2\]
- **基于相位敏感掩码的训练准则**:更吸引人的是,相位敏感掩码可作为训练目标,以补偿重构源和目标源之间的相位差:
\[E_p(w) = \frac{1}{SN} \sum_{s = 1}^{S} \sum_{i = 1}^{N} (\hat{m}_{si}(w)x_{mix}^i - x_{si} \cos(\theta_{mix}^i - \theta_{si}))^2\]
传统上,采用深度模型 $y(\cdot)$ 来估计掩码函数:
\[y(X_{mix}, w) = \hat{M}(w) = \{\hat{m}_{si}(w)\}\]
然后使用这些掩码估计源信号 $X = \{x_{si}\}$,每个 T - F 单元 $i$ 通过 $\hat{x}_{si} = \hat{m}_{si}(w)x_{mix}^i$ 进行分离。
在实际应用中,源分离系统无法预先确定分离源的顺序或排列,会出现排列问题,影响系统性能。为解决此问题,引入额外的学习目标,即排列损失函数,在训练深度神经网络时进行测量和最小化。排列不变训练方法考虑了 $S!$ 种可能的排列,并且在话语级别进行 PIT 可以避免连续错误的分配决策。
##### 2.2 系统评估
对排列不变训练进行了单声道源分离评估,在有两个源说话者且身份未知的情况下进行。实验设置了封闭和开放条件,分别对应测试会话中源说话者可见或不可见的情况。
- **数据准备**:使用 30 小时的训练数据和 10 小时的验证数据。以 8 kHz 的采样率、32 ms 的帧大小和 16 ms 的帧移提取 129 维的 STFT 幅度谱向量。从 49 名男性和 51 名女性中随机生成不同信噪比(0 到 5 dB)的两说话者混合信号,测试数据为两说话者和三说话者的混合信号。
- **模型训练**:采用双向长短期记忆(BLSTM)训练基于排列不变训练的深度分离模型,同时检查不同的激活函数。实现了具有 3 个隐藏层,每个层有 1024 个 ReLU 单元的 DNN,并与卷积神经网络(CNN)的结果进行比较。
- **评估指标**:测量了信号失真比(SDR)和语音质量感知评估(PESQ)。优化时学习率初始化为 $2 \times 10^{-5}$,每样本缩小 0.7 倍,直到学习率低于 $10^{-10}$,使用 8 个句子的小批量。评估了基于 IRM、IAM、IPSM 和 NIPSM 估计不同掩码函数的结果。
实验结果表明:
- 开放条件下的 SDR 与封闭条件下的 SDR 接近,保证了对未知和未见说话者源的鲁棒性。
- 在基于 PIT 估计掩码函数时,使用 IPSM 优于 IAM 和 IRM,使用 NIPSM 作为掩码函数效果最佳。
- 使用逻辑 sigmoid 函数、双曲正切函数或修正线性单元的结果变化不大。
- 在该任务中,CNN 的 SDR 高于 DNN,BLSTM 的 SDR 最高,且 BLSTM 性能优于单向 LSTM。
- 在单声道源分离中,三说话者混合信号的 SDR 低于两说话者混合信号,但单个模型可以处理两说话者和三说话者的混合信号。
以下是不同模型和掩码函数在系统评估中的表现对比表格:
| 模型/掩码函数 | SDR | PESQ |
| --- | --- | --- |
| DNN + IRM | 低 | 低 |
| DNN + IAM | 低 | 低 |
| DNN + IPSM | 中 | 中 |
| DNN + NIPSM | 高 | 高 |
| CNN + IRM | 中 | 中 |
| CNN + IAM | 中 | 中 |
| CNN + IPSM | 高 | 高 |
| C
0
0
复制全文
相关推荐









