-
使用TensorFlow编写的端到端语音识别网络:kaggle_speech_recognition,该网络采用Conv-LSTM-CTC架构
资源介绍
Kaggle语音识别
这是针对的Kaggle竞赛的项目,目的是为简单的语音命令构建语音检测器。
该模型是使用连接器时间分类(CTC)成本的卷积残差,向后LSTM网络,由TensorFlow编写。
首先将音频波文件转换为滤波器组频谱图。 CNN层从频谱图输入中提取分层特征,而LSTM层的作用类似于编码器/解码器,对CNN特征的序列进行编码,并输出字符作为输出。 LSTM编码器/解码器非常动态。 取决于训练词汇,可以用整个单词,音节或仅音素的信息对发出的字符进行编码。 完全连接的层会压缩表示形式,并进一步将字符与单词解耦。
该项目旨在调试和可视化友好。 提供这些界面以权重和激活,登录TensorBoard并记录示例单词的学习,这些示例单词显示了如何在训练中学习角色和决策边界。
安装和使用:
先决条件:Python 3.5,TensorFlow 1.4; 或Python 3.6,Tens
- 上一篇: 2017全国大学生电子设计大赛题目
- 下一篇: 2017年全国大学生电子设计大赛