登录 注册
当前位置:主页 > 资源下载 > 如何撰写能够被引用的论文和获得资助的提案——定义数据质量

如何撰写能够被引用的论文和获得资助的提案——定义数据质量

  • 更新:2024-08-11 16:44:56
  • 大小:4.73MB
  • 推荐:★★★★★
  • 来源:网友上传分享
  • 类别:系统集成 - 网络技术
  • 格式:PDF

资源介绍

5.1 定义数据质量 首先我们应该在一些基础词汇上达成共识,集中在“精确性”。精确的数据 意味着这样的数据: 正确的:数据的值和描述真实的反映了它需要表达的对象,并且这种表达是 可信的。例如,某一位作者当前居住的城市叫 New Hope,那么,关于家庭地址 的“精确的”数据应该包含正确的城市名称 New Hope。 明确的:数据的值和描述应该是只有一个含义。例如,在美国至少有十个城 市叫 New Hope,而在宾夕法尼亚州只有一个城市叫 New Hope。那么,在“精确 的”数据中,描述这个城市中的地址是应该包含城市名 New Hope 以及州名称宾 夕法尼亚,这样的数据才是“明确的”。 一致的:数据的值和描述用一种不变的标识约定来表达其含义。例如,美国 的宾夕法尼亚洲可能在数据中表达为 PA,Penn 或 Pennsylvania。为了满足一致性 的要求,关于当前家庭住址的的“精确”数据应该只使用一种约定方式来表达州 名称(比如使用全名 Pennsylvania),并且坚持这一种用法。 完整的:关于完整性有两个方面。 第一点是要确保数据中为每个实例定义了(不能为空)特定的值和描述,例 如,要确保所有应该有当前住址信息的记录实际上确实有值。 第二点是要确保记录的总数量是完整的,或者确保在整个信息流中没有在任 何地方丢失记录。 与完整性相关的一个问题是数据中的缺失值的多种可能的含义。用“空”来 描述的缺失值可能代表真实的数据未知,或者不可用。缺失值可以用空格、空字 符串或其他自创的描述(比如,不知道或拒绝回答)来表示。 5.2 假设 在本章我们会对清洗和规范化发生的环境做一些基本的假设。首先,ETL 作