-
CNN和LSTM架构的唇语识别技术:#深度学习 #卷积神经网络 #长短期记忆网络 #分类方法 #顺序数据处理 #唇语解码
资源介绍
通过CNN和LSTM架构进行口头阅读
介绍
这个深度学习项目是关于“唇读”的,它是一种通过视觉上解释嘴唇的运动来理解语音的技术,因此,我们通过使用深度学习来实现此“唇读”。 它可以用于听力较差的人,也可以从没有声音的视频中获取一些信息。
客观的
Lip Reading依赖于这种语言,在这个项目中,我们选择了Hangul作为实施Lip Reading的语言。
由于没有可用于深度学习的韩文口语数据集,因此有必要手动创建数据集。 因此,要识别语言的总体通用术语,不仅需要大量的数据集,而且神经网络的大小和复杂性也会增加。 由于时间和硬件的限制,该项目仅通过对几个单词进行分类来定义问题。
先例研究与参考
与该项目相关的先例研究如下:
Garg Amit,Jonathan Noyola和Sameep Bagadia。 使用CNN和LSTM进行唇读。 斯坦福大学技术报告,CS231n项目报告,201
- 上一篇: godnn:去 DNN 库
- 下一篇: 航空发动机寿命预测训练和预测数据