-
如何撰写能够被引用的科学论文和获得资助的提案:优先考虑完整性而非速度
资源介绍
图 4.2 完整性对比速度
一种潜在的有启发意义的实现这种平衡的方法是通过粗略回答一些待建数
据仓库中的数据质量方面的潜在问题来找到这个平衡点。比如:
在什么点数据变得过时?
以及
保证这些数据的正确性有多重要?
如果数据仓库小组必须要作出决定,比如,在数据质量方面更高程度的自信
和发布周期不能多于一天之间,到底该选择哪个?又比如,某个数据仓库每天发
布数据,可能会选择画费一整天的时间的延迟来获得更高的数据质量,方法也许
是通过更多的差异检验统计或者数据标准化和匹配,或者甚至采用手工的检查或
审计。如果周一的交易数据因此而在周三而不是在周二发布,是否是可被接受的
替换方式?回答这样的问题并不容易。
校正与透明
数据清洗过程通常用来改正脏数据,但同时会给组织提供一份不加掩饰的原