贝叶斯非负矩阵分解与组稀疏非负矩阵分解技术解析
立即解锁
发布时间: 2025-09-08 01:19:34 阅读量: 12 订阅数: 20 AIGC 


源分离与机器学习
### 贝叶斯非负矩阵分解与组稀疏非负矩阵分解技术解析
#### 1. 贝叶斯非负矩阵分解(BNMF)概述
贝叶斯非负矩阵分解(BNMF)是一种强大的技术,可用于解决单通道源分离问题,如语音与音乐分离以及无监督的歌声分离。它通过将先验分布 $p(\theta|\eta)$ 整合到边缘似然 $p(X|\eta)$ 中,来补偿单声道源分离中因模型不适定和异构数据导致的不确定性。BNMF 最大化边缘似然以估计超参数或正则化参数 $\eta$,作为 NMF 模型的分布估计,从而提高歌声分离对不同歌手、歌曲和乐器的鲁棒性。
#### 2. 不同类型的 BNMF 比较
| 似然 - 先验对 | 推理算法 | 闭式解 | 优化理论 |
| --- | --- | --- | --- |
| 高斯 - 指数(GE - BNMF) | Gibbs | 否 | - |
| 泊松 - 伽马(PG - BNMF) | VB | 部分 | 简化 |
| 泊松 - 指数(PE - BNMF) | VB | 是 | 完整 |
PE - BNMF 优于 GE - BNMF 和 PG - BNMF,原因如下:
- **可处理的解决方案**:使用指数先验为 BNMF 提供了可处理的解决方案,如公式 (5.158) - (5.159) 所示。具有指数先验的 BNMF 等同于稀疏 NMF,有利于稳健的源分离。而 GE - BNMF 中的 Gibbs 采样和 PG - BNMF 中的牛顿解计算量较大。
- **完整的依赖特征**:在寻找 PE - NMF 的最优解时,充分表征了变分下界的三项对指数超参数 $\lambda_{b_{mk}}$ 和 $\lambda_{w_{kn}}$ 的依赖关系,而在 PG - BNMF 的简化解中,忽略了 $L(q)$ 对伽马超参数的一些依赖关系。此外,GE - BNMF 中的观测值不受非负约束,无法反映 NMF 中的非负性条件。
#### 3. 超参数估计与模型阶数选择
在实现中,将对数边缘似然的变分下界 $L(q)$ 作为目标,以找到最优超参数 $\eta$,并选择最佳的基向量数量 $K$。模型阶数 $K$ 根据公式 (5.160) 自适应选择:
$\hat{K} = \arg\max_{K} L(q, K)$
通过收敛的变分参数 $\{\hat{P}_{mkn}, \hat{\alpha}_{b_{mk}}, \hat{\beta}_{b_{mk}}, \hat{\alpha}_{w_{kn}}, \hat{\beta}_{w_{kn}}\}$ 和超参数 $\{\hat{\lambda}_{b_{mk}}, \hat{\lambda}_{w_{kn}}\}$,确定具有最高变分下界 $L(q, K)$ 的最佳模型阶数 $\hat{K}$。
#### 4. 系统评估
##### 4.1 监督语音和音乐分离评估
- **数据准备**:从 TIMIT 语料库中随机选择 600 个语音句子作为训练语句,每个句子长度为 2 - 3 秒。使用 TIMIT 核心测试集的 192 个未见过的说话者的语句与音乐信号混合。音乐信号从 Saarland Music Data (SMD) 中采样,包括钢琴和小提琴的巴赫作品,并将信号下采样到 16 kHz 采样频率。以 0 dB 的语音 - 音乐比 (SMR) 生成混合信号。
- **特征提取**:计算 1024 点 STFT,以获得帧持续时间为 40 ms、帧移为 10 ms 的傅里叶幅度谱图。
- **模型实现**:实现了基线 NMF (KL - NMF)、GE - BNMF、PG - BNMF 和 PE - BNMF。NMF 运行 100 次迭代,GE - BNMF 进行 500 次 Gibbs 采样迭代,前 100 次作为预烧样本。PG - BNMF 和 PE - BNMF 运行 200 次 VB - EM 迭代。
- **结果分析**:
- 基于 PE - BNMF 通过公式 (5.160) 自适应选择语音和音乐分离的基数量。从 1200 个语音和音乐源信号样本中选择的模型阶数 $\hat{K}$ 大部分分布在 20 到 50 之间,语音源信号的估计数量平均小于钢琴和小提琴源信号。
- 比较不同基数量 $K$ 下的信号 - 失真比 (SDR),发现使用固定 $K$ 时,PG - BNMF 和 PE - BNMF 优于 NMF。自适应 $K$ 可以提高不同音乐源下的 SDR,自适应基选择对于语音和音乐分离至关重要,PE - BNMF 在 SDR 方面表现优于 PG - BNMF。
0
0
复制全文
相关推荐









