Kaldi 模型训练与测试流程
先决条件
要学习Kaldi 有一些先决条件要具备
Linux:
Kalid本身是在Linux下开发和测试运行的,虽然官方给了在Windows下用VS编译运行的方法,但我没有成功,坑比较多,除非你对Windows VS很熟,否则建议直接在Linux下搞。
C++: Kaldi所有相关算法的实现都是用C做的,如果要用Kaldi做自己的产品,C是必须会的。
机器学习已经入门:搞Kaldi机器学习基本的东西要知道,不然,你都不知道你在干什么。
目录结构
首先介绍一下运行Kaldi项目的目录结构
|-- cmd.sh // 运行配置目录,设置Kaldi运行的环境变量,例如使用什么类型的队列
|-- conf // 配置文件目录,mfcc、等参数的配置
|-- data // Kaldi运行所产生的数据
|-- exp // Kaldi每一步训练的模型数据及测试数据
|-- local //存放run.sh 中调用的脚本工具,需要自己写
|-- mfcc // mfcc数据
|-- path.sh //将Kaldi 工具和库目录添加到PATH
|-- run.sh // top层脚本,运行该脚本训练数据和测试, 需要自己写
|-- steps // kaldi 脚本工具, 复制到工程目录下
|-- tools // kaldi 脚本工具, 复制到工程目录下
`-- utils // kaldi 脚本工具, 复制到工程目录下
运行脚本
run.sh为总的运行脚本
语料准备
要做训练首先要有语料
Kaildi默认只支持wav格式的文件,为了方便,我们将为每个wav文件建立一个相同文件名的txt文件,在其放置标记后的内容,并做分词(why?)。
开放的语料主要的thchs30和aishell<