-
如何撰写被引用的科学论文和获得资助的项目提案:设计集结区
资源介绍
3.2 设计集结区
集结区按照自己的方式,为最终的数据仓库展示区来存储数据。有时候,保
存集结区数据是为了支持那些需要历史数据才能完成的功能,而其它时候,集结
区数据会在每个处理流程完成后就被删除。为维护历史信息而使用的集结区通常
称为持久集结区(persistent staging area)。而临时集结区中的数据则在每次加载
过程后被删除。大多数的数据集结区都使用混合模式,即同时使用临时和持久的
集结表。
请确保你已经仔细地思虑了在整个数据仓库操作过程中集结区所担当的角
色。集结区绝对不仅仅是为了支持下一个作业所创建的临时文件。集结区文件
可以在后续的过程发生了严重的问题的时候用于恢复工作流,还可以用于审计
和对处理过的数据内容进行验证。
除了考虑集结区数据的存储方式,还需要在设计和部署集结区时考虑如下的
基本规则。讨论下面规则均假定你是 ETL 小组的成员,如果不是,请跳过此节。
为了数据仓库项目的成功,必须建立和实践下列规则:
数据集结区的所有者必须是 ETL 小组。数据集结区,以及其中的所有数
据不应该对 ETL 小组外的用户开放。数据集结区不是为展示来设计的。
这里没有支持查询的索引和聚合表。在数据集结区没有为数据访问和一
致性提供保障。这些与数据访问相关的需求应该在展示区来处理。
无论任何原因,用户都不许进入数据集结区。在集结区中的数据必须被
视为正在处理中(a construction site area)。允许非授权的个人进入集结
区将导致一系列的问题。好奇的用户通常会错误地使用数据,降低数据
仓库的完整性。
报表不能从集结区访问数据。数据集结区是一个工作站点,ETL 小组不
需要通知用户就可以对表进行增、删、改操作。注意,这并不是说,程
序员可以随意地对所有的表进行增加、删除和修改。而是说,集结区是
一个工作区,不是展示区。这个区域是一个受控制的区域,在生产集结