deepspeech.pytorch中文语音识别笔记(2)

本文介绍使用AISHELL-ASR0009-OS1开源中文语音数据库进行deepspeech中文语音识别。提到该语音库情况及训练时翻译文本问题,还说明了生成deepspeech文本路径文件的方法,对比了不同格式读取翻译文本的识别效果,以及加入语言模型后的测试结果,发现中文加入语言模型计算慢且效果无提升。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

使用AISHELL-ASR0009-OS1 开源中文语音数据库

地址http://www.aishelltech.com/kysjcp

该语音库包含141000句短语,分为train、dev、test三类。翻译文本训练时发现不全,部分训练文件夹下的语音无翻译文本,生成deepspeech文本路径文件时需要注意。

deepspeech代码地址

https://github.com/SeanNaren/deepspeech.pytorch

(1)根据翻译文本aishell_transcript_v0.8.txt生成生字表,生成deepspeech的训练,验证,测试的csv路径文件

(2)读取翻译文本时可以采用字+空格的格式,如果采用原文本的词+空格格式,词错误率较高。

验证集50轮迭代  字+空格 wer 11.990 cer 5.998  词+空格 wer 25.444 cer 6.035 

不过中文与英文识别不同,中文以字为单位,英文以单词为单位,所以字符错误率cer更能准确反映识别效果,这样看来两者效果近似。

(3)使用kenlm利用翻译文本训练语言模型,并将语言模型加入test过程中

30轮训练的声学模型采用贪婪算法解码,测试集结果为wer14.958 cer 7.481 

采用加入语言模型的BeamCTC解码,测试集结果为15.029.cer7.509。

不同于英文语音识别加入语音模型wer大幅降低,中文识别语言模型加入后计算速度慢了几百倍,50s/it,结果近似,没有提升,没有找到原因。

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值