登录 注册
当前位置:主页 > 资源下载 > 35 > 指南:在中文环境下使用tinyxml进行数据导入

指南:在中文环境下使用tinyxml进行数据导入

  • 更新:2024-05-22 11:45:26
  • 大小:6.46MB
  • 推荐:★★★★★
  • 来源:网友上传分享
  • 类别:算法与数据结构 - 大数据
  • 格式:PDF

资源介绍

图 12.2 安装最多的扩展工具 12.6 获取数据 本章使用加州大学欧文分校机器学习库中的一个手机短信数据集,包含 5574 条短信 记录。您可以获取关于此短信数据集的更多信息,并在此处下载: – http://archive.ics.uci.edu/ml/datasets/SMS+Spam+Collection   此数据集中有 747 条垃圾短信被标记为“spam”,其余非垃圾短信被标记为“ham”, 该数据集是 tab 分隔的文本文件,每行表示一条短信记录,文件为 UTF-8 编码。   本章资源压缩包中提供此数据集的压缩包 smsspamcollection.zip 12.7 导入数据 以导入 csv 方式导入 SMSSpamCollection 文件   注意该文件以 tab 分隔符分隔,并且内容包含双引号,需要在导入向导的 2/5 步骤做 适当处理:Column Separation 选择“Tab”,关闭 Use Quotes 的复选框   导入向导第四步 – 改变属性 att1 的角色为“label”,这样 Rapidminer 便知道我们将使用此属性做预测。 – 改变属性 att2 的类型,由“polynomial”改变为“text”,这样告诉 RapidMiner 此属性 包含我们希望处理的文本数据。