-
基于GAN的数据增强以提升仇恨言论检测效果:SeqGAN应用
资源介绍
基于GAN的数据增强,可改善仇恨语音检测
SeqGAN数据增强用于改善仇恨语音检测,我们将SMOTE过采样方法用作基准。 我们还使用了四个训练有素的分类器-SVM,LSTM,BERT,Logistic回归。
要求
Tensorflow 1.15.0
Python 3.7
分类模型
如果要使用分类模型,请直接单击分类模型文件夹,在其中您将看到两个.ipynb文件,其中包含所有4个分类模型。 模型中使用的csv格式的训练集,测试集和验证集可以在数据集文件夹中看到。
SMOTE过采样
如果要实现SMOTE过采样,则只需打开SMOTE Oversamling文件夹。 其中也有两个.ipynb文件,它们是SMOTE算法之后的4个分类模型的结果。 点击任何文件,可以看到实现SMOTE的具体方法,需要注意的是SMOTE算法只能用于不平衡数据集。