-
如何撰写能被引用的科学论文和获得资助的提案:迟到的事实
资源介绍
7.11 迟到的事实
流程检查
规划与设计:需求/现状 -> 架构 -> 实现 -> 测试/发布
数据流:抽取 -> 清洗 -> 规格化 -> 提交
在客户购买情境中,假设我们收到一个几个月前的购买记录,在决大多数操
作型数据仓库中,我们希望将这个迟到的记录插入正确的时间位置,包括改变前
面月份的销售汇总。但是我们必须为这条购买记录仔细地选择当时的维表记录。
如果我们已经在类型 2 的缓慢变化维中为记录加了时间戳。处理过程中包括如下
的步骤:
1、在每个维度中,找出购买发生时的对应的维表记录
2、使用上一步中的维表记录对应的代理键替换迟到的记录中的自然键
3、将迟到的事实记录插入相应的数据库物理分区,该分区中包含了其他的
同期的事实记录。
这里有一些细节需要注意。首先我们假设维表记录中包含了两个时间戳,标
识详细描述的生效和失效日期。这可以使查找正确的维表记录变得简单。
其次要注意的是我们假设有一个操作性数据仓库,并希望将迟到的记录插入
到历史月份中。如果你使用的是书中所带的数据仓库,那么你不能修改历史的月
度销售汇总值,即使这个值是错误的。有一种情况需要你仔细考虑,销售记录中
的日期维度为订购日期,可能是今天,但是其他的客户、店铺和产品维度仍然指
向了旧的描述。如果你遇到这种情况,你需要和财务部门仔细的讨论,确保他们
理解你在做什么。一个折衷方式是在购买记录中使用两组日期维度,一组代表实
际购买日期,另外一组代表订购日期。现在你可以既从订购又从操作的角度汇总
销售。
第三个细节是如果要求迟到的购买记录所插入的数据库的正确的物理分区
中包含了和该记录同代的兄弟节点。当你将一个物理分区从一种存贮形式转移到
另外的存贮形式,或者执行了备份和恢复操作,将影响到一段时间内的所有的购
买记录。绝大多数情况下,这是我们想做的。如果你基于日期维度定义物理分区,