-
如何撰写能够被引用的论文和获得资助的提案——定义数据质量
资源介绍
5.1 定义数据质量
首先我们应该在一些基础词汇上达成共识,集中在“精确性”。精确的数据
意味着这样的数据:
正确的:数据的值和描述真实的反映了它需要表达的对象,并且这种表达是
可信的。例如,某一位作者当前居住的城市叫 New Hope,那么,关于家庭地址
的“精确的”数据应该包含正确的城市名称 New Hope。
明确的:数据的值和描述应该是只有一个含义。例如,在美国至少有十个城
市叫 New Hope,而在宾夕法尼亚州只有一个城市叫 New Hope。那么,在“精确
的”数据中,描述这个城市中的地址是应该包含城市名 New Hope 以及州名称宾
夕法尼亚,这样的数据才是“明确的”。
一致的:数据的值和描述用一种不变的标识约定来表达其含义。例如,美国
的宾夕法尼亚洲可能在数据中表达为 PA,Penn 或 Pennsylvania。为了满足一致性
的要求,关于当前家庭住址的的“精确”数据应该只使用一种约定方式来表达州
名称(比如使用全名 Pennsylvania),并且坚持这一种用法。
完整的:关于完整性有两个方面。
第一点是要确保数据中为每个实例定义了(不能为空)特定的值和描述,例
如,要确保所有应该有当前住址信息的记录实际上确实有值。
第二点是要确保记录的总数量是完整的,或者确保在整个信息流中没有在任
何地方丢失记录。
与完整性相关的一个问题是数据中的缺失值的多种可能的含义。用“空”来
描述的缺失值可能代表真实的数据未知,或者不可用。缺失值可以用空格、空字
符串或其他自创的描述(比如,不知道或拒绝回答)来表示。
5.2 假设
在本章我们会对清洗和规范化发生的环境做一些基本的假设。首先,ETL 作
- 上一篇: 服务器区域-Visio常用图库
- 下一篇: 认证服务器-Visio常用图库