MFA做中文语音文本对齐的教程

最新推荐文章于 2024-04-06 01:00:00 发布

binom

最新推荐文章于 2024-04-06 01:00:00 发布

阅读量858

点赞数 4

CC 4.0 BY-SA版权

文章标签： python 语音识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/binom/article/details/134254580

本文档详细介绍了如何使用Montreal Forced Aligner（MFA）进行中文语音文本对齐。首先，提供了获取音频和文本数据的来源，特别是THCHS30数据集的使用。接着，阐述了MFA的安装步骤，包括创建CONDA虚拟环境、选择合适的版本以及安装依赖。在安装过程中，作者强调了避免数据路径包含中文以防止错误的重要性。最后，提到了在运行过程中可能遇到的报错情况。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近做项目需要用到中文语音文本对齐，在网上搜罗了一圈，发现目前主流的是用Montreal Forced Aligner（MFA）在做。知乎和C站的一些教程不太全，并且发帖时间较早，导致现在按其教程安装出现多个报错，在经过多个版本的尝试和修复报错问题后，终于成功安装并可以正常使用，特写此贴记录。

一、关于数据源

首先我们做语音本文对齐需要有音频数据和文本数据，音频数据可以自己采集和利用公开的数据库，我自己用的是清华大学中文语音识别数据THCHS30，链接如下：

http://www.openslr.org/18/

该数据集包括的音频数据的.wav格式正是与后面MFA输入格式所适配的，并且该数据集已经包含了我们后续所需要的与音频所对应的同样是用于MFA输入的拼音文本，只不过在后续用作MFA输入时，需要将TRN中的第二行复制，新建文本文件，粘贴内容，保存类型为.lab文件。

更为一般的情况下，我们需要通过某些软件将音频格式转换为.wav格式，并且在此基础上，将音频文件转中文汉字txt文本处理（目前比较常用的方式是采集讯飞接口），之后在通过代码完成txt到.lab文件的转换（可参考以下链接中的第一步）。

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。