资源介绍
TextClassify文本分类系统适用于中文,英文文本分类。
包括各个文本的关键词输出,可以控制关键词输出个数,也可以对关键词加入黑名单和白名单。
关于TextClassify文本分类系统的改进:
改进jieba中文分词词典
改进黑名单:增加停用词
改进白名单:增加专业词
在TextProcess改进每一类text至多选FileInFolder个:理论上越多越好
deleteN的选取:可以优化
特征词的长度限定:unicode不过长,不过短
特征词词典dict_size的选取:可以优化
特征的改进
多分类结合的算法改进
- 上一篇: 一个文本分类系统
- 下一篇: 中文文本分类源代码 使用JAVA