## TensorFlow Implementation of End-to-End Speech Recognition
### Requirements
- TensorFlow >= 1.3.0
- tqdm >= 4.14.0
- python-Levenshtein >= 0.12.0
- setproctitle >= 1.1.10
- seaborn >= 0.7.1
### Corpus
#### [TIMIT](https://catalog.ldc.upenn.edu/LDC93S1)
- Phone (39, 48, 61 phones)
- character
#### [LibriSpeech](http://www.openslr.org/12/)
- Phone (under implementation)
- Character
- Word
#### [CSJ (Corpus of Spontaneous Japanese)](http://pj.ninjal.ac.jp/corpus_center/csj/en/)
- Phone (under implementation)
- Japanese kana character (about 150 classes)
- Japanese kanji characters (about 3000 classes)
These corpuses will be added in the future.
- Switchboard
- WSJ
- [AMI](http://groups.inf.ed.ac.uk/ami/corpus/)
This repository does'nt include pre-processing and pre-processing is based on [this repo](https://github.com/hirofumi0810/asr_preprocessing).
If you want to do pre-processing, please look at this repo.
### Model
#### Encoder
- BLSTM
- LSTM
- BGRU
- GRU
- VGG-BLSTM
- VGG-LSTM
- Multi-task BLSTM
- you can set another CTC layer to the aubitrary layer.
- Multi-task LSTM
- VGG
#### Connectionist Temporal Classification (CTC) [\[Graves+ 2006\]](http://dl.acm.org/citation.cfm?id=1143891)
- Greedy decoder
- Beam Search decoder
- Beam Search decoder w/ CharLM (under implementation)
##### Options
- Frame-stacking [\[Sak+ 2015\]](https://arxiv.org/abs/1507.06947)
- Multi-GPUs training (synchronous)
- Splicing
- Down sampling (under implementation)
#### Attention Mechanism
##### Decoder
- Greedy decoder
- Beam search decoder (under implementation)
##### Attention type
- Bahdanau's content-based attention
- Bahdanau's normed content-based attention (under implementation)
- location-based attention
- Hybrid attention
- Luong's dot attention
- Luong's scaled dot attention (under implementation)
- Luong's general attention
- Luong's concat attention
- Baidu's attention (under implementation)
###### Options
- Sharpning
- Temperature regularization in the softmax layer (Output posteriors)
- Joint CTC-Attention [\[Kim 2016\]](https://arxiv.org/abs/1609.06773.)
- Coverage (under implementation)
### Usage
Please refer to docs in each corpuse
- TIMIT
- LibriSpeech
- CSJ
### Lisense
MIT
### Contact
[email protected]
没有合适的资源?快使用搜索试试~ 我知道了~
tensorflow_end2end_speech_recognition:基于TensorFlow的端到端语音识别实现(CTC...

共332个文件
py:207个
yml:59个
txt:30个

需积分: 50 11 下载量 32 浏览量
2021-02-06
07:34:18
上传
评论
收藏 809KB ZIP 举报
温馨提示
端到端语音识别的TensorFlow实现 要求 TensorFlow> = 1.3.0 tqdm> = 4.14.0 python-Levenshtein> = 0.12.0 setproctitle> = 1.1.10 海上> = 0.7.1 语料库 电话(39,48,61电话) 字符 电话(实施中) 字符 字 电话(实施中) 日语假名字符(约150个班级) 日语汉字字符(约3000类) 这些语料库将在将来添加。 总机 华尔街日报 该存储库不包括预处理,并且基于预处理。 如果要进行预处理,请查看此存储库。 模型 编码器 无纺布 LSTM BGRU 格鲁 VGG-B
资源详情
资源评论
资源推荐
收起资源包目录





































































































共 332 条
- 1
- 2
- 3
- 4




























空气安全讲堂
- 粉丝: 49
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 互联网+背景下企业人力资源管理对策初探.docx
- 浅析通信计算机信息安全存在的问题及解决方式.docx
- Flash动画设计方案毕业论文.doc
- 基于MSP430的嵌入式DTMF拨号解码器实现方案.docx
- Photoshop打造完美的室内方案设计书效果图.doc
- solon-Java资源
- 依托大数据时代打造高效初中物理课堂教学.docx
- 工程建设项目管理中的工程费用控制.doc
- 智慧城市大数据方案.pdf
- (源码)基于Go语言的日志统计系统.zip
- 人工智能介入司法审判的风险防范.docx
- 探究深度学习指导下的高中思想政治教学.docx
- 平安农村网络视频监控系统设计方案.doc
- tinyflow-Python资源
- 使用IRF设备虚拟化技术提高园区可靠性的实施.docx
- 2018年电大电子商务概论形考答案.docx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈



安全验证
文档复制为VIP权益,开通VIP直接复制

评论0