-
如何撰写能被引用的科学论文和获得资助的提案:整合异构数据源
资源介绍
4.4 集成异构数据源
这一章的前面部分陈述了许多当生成数据仓库时可能遇到的常见的数据系
统。该部分讨论的是将面临的不同数据源集成的挑战。然而在可以整合数据之前,
必须了解什么是数据集成。整合数据不仅仅是简单的将不同来源的数据收集并存
储在一个资料库中。要更好的理解什么是集成,设想一下公司并购。在公司并购
过程中,一个或者多个公司加入到其它类似(或不相似的)的公司中。当并购发
生时,由业务决定哪一个公司存活以及哪一个公司被新的母公司合并。往往,当
母公司发觉在某些它的附属的公司的实践和技术中的价值需要被合并到它的重
建的组织中时就需要进行谈判了。一个成功的公司合并是形成一个具有单一业务
利益的整体组织。这时需要英雄所见略同,以这种方式来统一业务术语(维度属
性)和关键绩效指标(事实表中的事实)。如果你希望像公司合并一样来集成你
的数据,那么你的数据仓库将是一个支持业务利益的有组织的单一信息源。
但对那些只完成了一半的合并,将允许他们的子公司做自己的业务,此时将
会怎样呢?由于这些公司没有整合――他们只是联合,这种情况会引起一些问
题。当建立一个数据仓库时,集成在几个地方发生。最直接的数据集成的形式是
进行维度规范化。在数据仓库中,规范化的维度是统一整个企业分离的数据系统
的一致性设计。
当一个维度是由来自几个独立系统的数据组成时,很重要的一点是把这些系
统中的每一个唯一标识包含到数据仓库的目标维度中去。那些标识必须是用户
可见的,确保他们能理解这个维度与其数据的对应关系,这样才可以回溯到他
们的交易系统中。
当那些特殊的维度没法完全整合时会怎么样呢?不幸的是,这个问题更像一
个政策问题而不是技术问题。整合维度和事实对于数据仓库项目的成功是尤其关
键的。如果你的项目最后提供的是没有跨业务主题域的、完全不同的维度,那你
的目标就没有完成。第 5 章我们将详细讨论加载维度的问题,但我们在这里要提
及一些特殊的技巧,用于从一个完全不同的源系统环境加载规范化的维度。
1.标识源系统。在数据评估的逻辑数据映射的设计阶段,数据仓库小组必
须一起找出目标维度和事实所在的各种源系统。数据仓库结构设计师必须尽可能