-
\"TinyXML指南[中文]关于缺失数据部分的内容\
资源介绍
(1)处理缺失的数据
数据准备阶段的第一项工作是处理缺失的数据,但因为这是我们第一次使用
Rapidminer,所以前几个步骤将涉及设置 Rapidminer。然后我们将直接开始处理缺失的数据。
缺失的数据指在数据集中不存在的数据。如图 7.7 所示,缺失的数据不同于零或某些其他值。
它是空白的,并且值未知。缺失的数据有时在数据库领域还称为空数据。根据您在数据挖掘
方面的目标,您可能会选择将缺失的数据保留原样,或可能希望将缺失的数据替换为某些其
他值。
图 7.7 缺失的数据
创建视图是在为数据挖掘活动做准备时可以采取的一种方式,用于收集并组织关系数
据库中的数据。在本例中,数据库视图的一些属性中具有缺失的数据。图中的黑色箭头指出
了其中的一些属性。在有些情况下,缺失的数据并不是一个问题,而是预期会出现的情况。
例如,在 Other Social Network 属性中,调查对象完全有可能不注明他们使用除了调查中列
出的社交网站之外的社交网站。因此,缺失的数据可能是准确并可接受的。另一方面,在
Online Gaming 属性中,答案有“Y”或“N”,用于表示调查对象参与或不参与在线游戏。但