深度神经网络在声源分离中的应用
立即解锁
发布时间: 2025-09-08 01:19:35 阅读量: 11 订阅数: 19 AIGC 


源分离与机器学习
### 深度神经网络在声源分离中的应用
#### 1. 深度学习与声源分离概述
人工智能和深度学习正处于发展的浪潮中,极大地影响着人类生活和产业发展。深度学习正在改变世界,许多解决方案和应用已成功开发。基于深度学习的声源分离吸引了大量研究人员关注这一新兴趋势。各种深度学习算法的信号处理技术被集成,以完成不同的挑战性任务。
#### 2. 深度机器学习
深度机器学习通过结合机器学习和深度学习来实现,以下介绍几种具体方法。
##### 2.1 深度频谱掩蔽
语音分离或增强可视为回归问题,可通过基于DNN模型的监督学习来解决。深度频谱映射或掩蔽通过深度学习实现。
在实际应用中,通常计算1024点短时傅里叶变换,窗口大小为64ms,重叠为32ms。在时间t的混合频谱信号$x_{t}^{mix}$可从频谱信号的幅度或对数幅度获得,也可采用梅尔频谱数据。DNN在时间t的输入向量$x_t$由以帧t为中心、两侧各有τ个相邻帧的混合频谱信号窗口组成:
\[x_t = \left[(x_{t - \tau}^{mix})^{\top}, \cdots, (x_{t}^{mix})^{\top}, \cdots, (x_{t + \tau}^{mix})^{\top}\right]^{\top} \in R^{M(2\tau + 1)}\]
其中M是频率 bins 的数量。输入向量中包含了输入频谱的时间动态,这对声源分离有帮助。
DNN用于学习混合信号与其两个源信号之间的映射函数。目标是使用具有L层权重参数$w = \{w^{(l)}\}_{l = 1}^{L}$的全连接DNN将混合信号$x_t$分解为两个源信号$\hat{x}_{1,t}$和$\hat{x}_{2,t}$。连接到输出层L的权重包括两个源的权重$w^{(L)} = \{w_{1}^{(L)}, w_{2}^{(L)}\}$,用于计算两个源的激活值$\{a_{1,t}^{(L)} = \{a_{1,tk}^{(L)}\}, a_{2,t}^{(L)} = \{a_{2,tk}^{(L)}\}\}$。
引入一对软掩蔽函数来改善估计的源频谱,理想比率掩蔽计算如下:
\[\hat{y}_{i,t} = \frac{|w_{i}^{(L)} z_{t}^{(L - 1)}|}{|w_{1}^{(L)} z_{t}^{(L - 1)}| + |w_{2}^{(L)} z_{t}^{(L - 1)}|} = \frac{|a_{i,t}^{(L)}|}{|a_{1,t}^{(L)}| + |a_{2,t}^{(L)}|}, \quad i = 1, 2\]
其中$z_{t}^{(L - 1)}$表示第L - 1层的隐藏特征。通过元素级计算,将混合频谱向量$x_t$与两个掩蔽函数$\{\hat{y}_{1,t}, \hat{y}_{2,t}\}$相乘,估计两个源的重构幅度频谱向量$\{\hat{x}_{1,t}, \hat{x}_{2,t}\}$:
\[\hat{x}_{i,t} = x_{t}^{mix} \odot \hat{y}_{i,t}, \quad i = 1, 2\]
监督DNN模型通过最小化回归误差函数进行训练,该误差函数基于一组训练频谱样本X,包括混合信号$\{x_t\}_{t = 1}^{T}$和相应的源或目标信号$\{x_{1,t}, x_{2,t}\}_{t = 1}^{T}$。平方和误差函数为:
\[E(w) = \frac{1}{2} \sum_{t = 1}^{T} \left[\|\hat{x}_{1,t}(x_t, w) - x_{1,t}\|^2 + \|\hat{x}_{2,t}(x_t, w) - x_{2,t}\|^2\right]\]
最小化该误差函数相当于增加估计信号$\{\hat{x}_{1,t}, \hat{x}_{2,t}\}$与干净频谱信号$\{x_{1,t}, x_{2,t}\}$之间的相似度。优化过程通过基于随机梯度下降的误差反向传播算法实现,使用小批量数据。
下面介绍两个关于DNN
0
0
复制全文
相关推荐









