-
徐君在国科大/中科院的网络数据挖掘课程中,设计了基于监督学习的垃圾短信识别系统,并撰写了分类报告,同时附带了相关数据和代码
资源介绍
国科大 徐君 网络数据挖掘 大作业
个人报告+代码+数据,可参考
README
运行环境:
Python 2.7.12
jieba 0.39
numpy 1.13.3
scikit-learn 0.19.1
scipy 1.0.0
请参照此运行环境进行运行前配置。
1.运行TextProcess.py获得classifiedLabel.txt、trainSetMsg.txt以及testSetMsg.txt,得到文本处理后的规则文本数据文件;
2.运行crossValidation.py进行交叉验证;
3.其中SVM算法运行时间较长(6-7小时左右),可以注释掉或者减少数据规模来测试;
4.可调用分类器中的predict方法来利用训练后的分类器进行分类预测(垃圾短信识别)。