最近做项目需要用到中文语音文本对齐,在网上搜罗了一圈,发现目前主流的是用Montreal Forced Aligner(MFA)在做。知乎和C站的一些教程不太全,并且发帖时间较早,导致现在按其教程安装出现多个报错,在经过多个版本的尝试和修复报错问题后,终于成功安装并可以正常使用,特写此贴记录。
一、关于数据源
首先我们做语音本文对齐需要有音频数据和文本数据,音频数据可以自己采集和利用公开的数据库,我自己用的是清华大学中文语音识别数据THCHS30,链接如下:
http://www.openslr.org/18/
该数据集包括的音频数据的.wav格式正是与后面MFA输入格式所适配的,并且该数据集已经包含了我们后续所需要的与音频所对应的同样是用于MFA输入的拼音文本,只不过在后续用作MFA输入时,需要将TRN中的第二行复制,新建文本文件,粘贴内容,保存类型为.lab文件。
更为一般的情况下,我们需要通过某些软件将音频格式转换为.wav格式,并且在此基础上,将音频文件转中文汉字txt文本处理(目前比较常用的方式是采集讯飞接口),之后在通过代码完成txt到.lab文件的转换(可参考以下链接中的第一步)。