-
tinyxml指南[中文]中关于缺失值产生的原因介绍
资源介绍
6.1 数据质量分析
数据质量分析是数据挖掘中数据准备过程的重要一环,是数据预处理的前提,也是数据
挖掘分析结论有效性和准确性的基础,没有可信的数据,数据挖掘构建的模型将是空中楼阁。
数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般是指不符合要
求,以及不能直接进行相应分析的数据。在常见的数据挖掘工作中,脏数据包括:
缺失值
异常值
不一致的值
重复数据及含有特殊符号(如#、¥、*)的数据
本小节将主要对数据中的缺失值、异常值和一致性进行分析。
6.1.1 缺失值分析
数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成分析结果
的不准确,以下从缺失值产生的原因及影响等方面展开分析。
(1) 缺失值产生的原因
1) 有些信息暂时无法获取,或者获取信息的代价太大。
2) 有些信息是被遗漏的。可能是因为输入时认为不重要、忘记填写或对数据理解错误
等一些人为因素而遗漏,也可能是由于数据采集设备的故障、存储介质的故障、传输媒体的
- 上一篇: 四分位数间距-tinyxml指南[中文]
- 下一篇: 数据清洗-tinyxml指南[中文]