-
如何撰写能被引用的科学论文和获得资助的提案:数据质量问题策略
资源介绍
图 4.3 数据质量问题策略
不论甚么原因导致的 A 类问题,都必须简单地在数据源进行处理。例如缺
失的客户投诉主题或者录入到字段中的主观取得的客户对销售电话接受
能力的假信息。还没有什么技术方法来获取或者再造这些信息。它们要
么从数据源被正确地获取,要么被遗失。当处理这些 A 类数据质量问题
时,清洗子系统应该把他们看作是数据源的缺陷,把所有的明显的假信息
从原始报表和分析维和事实中删除,并清楚地标明这些信息是缺失或者
伪造,从而使管理工作直接集中在源系统的问题上面。在大多数的数据
仓库项目中,大部分数据问题都属于这类问题,所以必须要检测数据质
量问题,并与最终用户群体做清晰地沟通。
D 类(我们先跳过来) 数据质量问题只能在 ETL 系统独自解决。例如来自
独立的第三方的数据提供者的缺失的和不完整的信息,这可以通过集成
完全修正,另外还有来自固定的操作型源系统的坏数据的修正。D 类问
题在大多数数据仓库项目中相对很罕见,ETL 系统被授权创建这些值来
来修正数据缺陷,但是必须要保证它的策略和行为能够通过描述的和完
善的元数据对用户可见。
B 类问题应该在数据源处理,即使有一些创造性的方法能推断或再造那
些丢弃的信息。A 类问题和 B 类问题的分界线是技术方面的,而不是策
略方面的。如果一个给定的数据问题能很有把握地在技术方面解决,那
它很明显地是属于 A 类问题范畴。