-
指南:在中文环境下使用tinyxml进行数据导入
资源介绍
图 12.2 安装最多的扩展工具
12.6 获取数据
本章使用加州大学欧文分校机器学习库中的一个手机短信数据集,包含 5574 条短信
记录。您可以获取关于此短信数据集的更多信息,并在此处下载:
– http://archive.ics.uci.edu/ml/datasets/SMS+Spam+Collection
此数据集中有 747 条垃圾短信被标记为“spam”,其余非垃圾短信被标记为“ham”,
该数据集是 tab 分隔的文本文件,每行表示一条短信记录,文件为 UTF-8 编码。
本章资源压缩包中提供此数据集的压缩包 smsspamcollection.zip
12.7 导入数据
以导入 csv 方式导入 SMSSpamCollection 文件
注意该文件以 tab 分隔符分隔,并且内容包含双引号,需要在导入向导的 2/5 步骤做
适当处理:Column Separation 选择“Tab”,关闭 Use Quotes 的复选框
导入向导第四步
– 改变属性 att1 的角色为“label”,这样 Rapidminer 便知道我们将使用此属性做预测。
– 改变属性 att2 的类型,由“polynomial”改变为“text”,这样告诉 RapidMiner 此属性
包含我们希望处理的文本数据。