-
轻量级和可解释的ML模型,适用于语音情感识别及歧义处理,已在IEMOCAP数据集上进行训练,名为多峰语音情感识别
资源介绍
多模式语音情感识别和歧义解决
总览
从语音中识别情感是一项与情感本身含糊不清的定义有关的艰巨任务。 在这项工作中,我们建立了轻量级的多模式机器学习模型,并将其与较重且难以解释的深度学习对应模型进行了比较。 对于这两种类型的模型,我们都使用来自给定音频信号的手工制作的功能。 我们的实验表明,轻量级模型可以与深度学习基准媲美,甚至在某些情况下甚至可以胜过深度学习基准,从而在IEMOCAP数据集上实现了最先进的性能。
获得的手工特征向量用于训练两种类型的模型:
基于ML:逻辑回归,SVM,随机森林,极限梯度增强和多项朴素贝叶斯。
基于DL:多层感知器,LSTM分类器
该项目是滑铁卢大学CS 698-计算音频课程的一个课程项目。 有关详细说明,请查看。
数据集
数据集用于这项工作中的所有实验。 请参阅该,以获取对应用于数据集的预处理步骤的详细说明。
要求
所有实验均使用以下库进行了测试:
xgboost == 0.82
火炬== 1.0.1.post2
scikit学习== 0.20.3
numpy == 1.16.2
jupyter == 1.0.0
熊猫== 0.24.1