-
nlpcda参数应用于NLP数据处理
资源介绍
NLP Chinese Data Augmentation 一键中文数据增强工具
使用:pip install nlpcda
开源不易,欢迎 star:glowing_star:
pypi:
介绍
一键中文数据增强工具,支持:
经过细节特殊处理,比如不改变年月日数字,尽量保证不改变原文语义。即使改变也能被猜出来、能被猜出来、能被踩出来、能被菜粗来、被菜粗、能菜粗来
计划中的未来内容
增加多线程操作,一键操作
随机噪声注入?随机插入一些字符,太简单实现了。
利用pingyin?
基于Word2Vec、BERT等词向量的词语近距离的替换、MASK猜测置换 ??但是无法控制它生成,以及缺点MASK位置。
引入TF-IDF、TextRank、关键词字典等,可以选择:替换/不替换关键词 ??
意义
在不改变原文语义的情况下,生成指定数量的训练语料文本
对NLP模型的泛化性能、对抗攻击、干扰波动,有很好的提升作用
参考比赛(本