-
如何撰写被引用的科学论文和获得资助的提案:错误事件表结构
资源介绍
图 4.4 错误事件表结构
每一个被数据清洗子系统发现的数据质量错误或问题都被记录在错误事件
事实表中。换句话说,这一个事实表的粒度是每个数据质量检验的每一个错误实
例。记住一个质量检验是一个过滤器。所以,如果你运行 10 个不同的针对一些
数据集的过滤器,且每个过滤器发现 10 个缺陷记录,总共就有 100 个记录会被
写到错误事件事实表。
事件日期是一个标准的维,表示为日历日期。日期时间被从午夜以后按秒数
记录在事实表里,以一个整数表示。
批处理维为整个批处理过程的每一次执行创建一个记录,并且通常都包含有
意义的时间戳,以及处理的记录数量。
过滤器维包含描述每个已应用的数据质量检查或过滤信息的内容。它不是一
次特定运行的描述(那是事实表记录的东西),而是过滤可以做什么以及应用到哪
里。它的属性之一 ,缺省的严重程度得分,为可能遇到的每个错误类型都定义一
个严重程度值。 这些对严重程度评分很多作为最后严重程度得分错误事件事实
表的基础。例如当海量数据累积起来后,最后的严重程度得分可能是比其缺省值
得分高。
- 上一篇: 蓝桥杯18年最全算法训练试题181道(含vip试题)
- 下一篇: 2019第十届蓝桥杯JavaB组题目