基于特征级与决策级融合的语音情感识别提升策略

PDF文件

338KB | 更新于2024-08-26 | 44 浏览量 | 举报 2 收藏

立即下载

语音情感识别是一项前沿且重要的技术，它关注如何通过分析说话者的语音信号来识别其情感状态，这在人机交互、客服中心应用以及提升语音识别准确度等方面具有广泛应用潜力。本文提出了一个创新的基于特征级和决策级双层融合的语音情感识别方法。在特征级融合方面，该方法结合了全局统计特征和局部频谱特征。全局统计特征，例如基于基频和共振峰的统计量，捕捉了声音的整体节奏和质量，而局部频谱特征，如LPCC和MFCC，专注于音频信号的局部细节。通过将这两种类型的特征相结合，能够更全面地捕捉语音中的情感信息，提高了识别的准确性。决策级融合则是通过集成支持向量机(SVM)和人工神经网络(ANN)构建的多个独立的识别系统。每个系统使用不同的声学特征进行训练和分类。在这一阶段，系统的输出被整合，形成一个综合的判断，进一步提升了情感识别的鲁棒性和可靠性。这种方法利用了多种模型的优势，减少了单一特征或模型的局限性。实验部分在汉语情感语音数据库上进行，结果显示，作者提出的特征级决策级双层融合算法显著提升了语音情感识别的性能。这种融合策略有助于减少噪声影响，增强情感信息的识别，并在实际应用中取得了优于传统方法的成果。这篇论文对于语音情感识别领域的研究做出了重要贡献，展示了将不同层次和类型的特征融合在决策过程中的优势，为提高语音情感识别的精度和实用性提供了新的思路和技术手段。未来的研究可能继续探索更复杂的融合策略，以适应更多元化和复杂的情感表达场景。