-
通过神经网络和多个数据集来识别音频文件中蕴含的情绪
资源介绍
来自多个数据集的音频情感分类
执行摘要
该项目提出了一种深度学习分类器,该分类器能够预测以音频文件编码的人类说话者的情绪。 使用2个不同的数据集RAVDESS和TESS对分类器进行训练,并且在8个班级(中立,平静,快乐,悲伤,愤怒,恐惧,厌恶和惊讶)上,F1的总体得分为80%。
功能集信息
对于此任务,使用来自以下位置的5252个样本构建数据集:
样本包括:
来自RAVDESS的1440个语音文件和1012个歌曲文件。 该数据集包括24位专业演员的录音(12位女性,12位男性),用中性的北美口音表达了两个词法匹配的陈述。 言语包括镇定,快乐,悲伤,愤怒,恐惧,惊奇和令人厌恶的表情,而歌曲则包含镇定,快乐,悲伤,愤怒和恐惧的情绪。 每个文件在情感效度,强度和真实性方面均被评定10次。 评分由247位个人提供,这些都是来自北美未经训练的成人研究参与者的特征。 另有72名参与者提供了重测数据