登录 注册
当前位置:主页 > 资源下载 > 35 > tinyxml指南[中文]中关于缺失值产生的原因介绍

tinyxml指南[中文]中关于缺失值产生的原因介绍

  • 更新:2024-05-22 12:16:20
  • 大小:6.46MB
  • 推荐:★★★★★
  • 来源:网友上传分享
  • 类别:算法与数据结构 - 大数据
  • 格式:PDF

资源介绍

6.1 数据质量分析 数据质量分析是数据挖掘中数据准备过程的重要一环,是数据预处理的前提,也是数据 挖掘分析结论有效性和准确性的基础,没有可信的数据,数据挖掘构建的模型将是空中楼阁。 数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般是指不符合要 求,以及不能直接进行相应分析的数据。在常见的数据挖掘工作中,脏数据包括:  缺失值  异常值  不一致的值  重复数据及含有特殊符号(如#、¥、*)的数据 本小节将主要对数据中的缺失值、异常值和一致性进行分析。 6.1.1 缺失值分析 数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成分析结果 的不准确,以下从缺失值产生的原因及影响等方面展开分析。 (1) 缺失值产生的原因 1) 有些信息暂时无法获取,或者获取信息的代价太大。 2) 有些信息是被遗漏的。可能是因为输入时认为不重要、忘记填写或对数据理解错误 等一些人为因素而遗漏,也可能是由于数据采集设备的故障、存储介质的故障、传输媒体的