-
如何撰写能够被引用的论文和获得资助的提案——探究时间的本质在其中的作用
资源介绍
8.3 时间是本质
流程检查
规划与设计:需求/现状 -> 架构 -> 实现 -> 测试/发布
数据流:抽取 -> 清洗 -> 规格化 -> 提交
整个 ETL 系统中,时间,或更精确的,吞吐量是主要关心的内容。这种转换
处理任务设计主要目的归根结底是使得数据装载到展现表中最快并使得最终用
户能快速的从这些表中得到响应。有时,当清洗难处理的或脏数据时吞吐量很大。
推或拉
在每个数据仓库中,原始数据来自平面文件系统是不可避免的。合并这些数
据到数据仓库的第一步是将它移动到 ETL 服务器。平面文件可以从源系统以推或
拉的方式移动到到 ETL 服务器上。
假如推可以看作是源系统主动将文件推向 ETL 服务器,而拉可以看作 ETL 服
务器主动从文件服务器上抽取文件。
哪一种方法更好?这个问题的真实答案是,可能两种都一样好。然而,更重
要的问题是什么时候?――如“什么时候源文件可以移动了?”
在许多情形中,,需要移动的源文件来自操作型业务系统,并且通常直到操作
型系统夜间批处理完成之后,才将要移动到 ETL 服务器的文件准备好。这可能会
导致在文件准备好之前就开始了转换处理,这种情形装载到数据仓库的数据可能
是错误的或不完整的。在这些情况下,让主系统推源文件有以下的优势:
推送源文件的 FTP 步骤可以嵌在操作型系统的批处理中,这样当主系统把文