-
如何撰写被引用的科学论文和获得资助的项目提案:数据流主线
资源介绍
1.3 数据流主线
数据流主线可能是大多数读者最熟悉的,因为可以认为这是常规的 ETL(抽
取-转换-加载)场景的一个简单的概括。当你阅读下面的列表时,你可以开始
去想像规划&设计主线是如何影响下列每一因素的。抽取步骤包括:
读取源数据模型
连接并访问数据
调度源系统,截取通知和后台程序
捕获变化数据
将抽取的数据集结到磁盘
清洗步骤包括:
强制列属性
强制结构
强制数据和数值规则
强制复杂业务规则
创建元数据来描述数据质量
将清洗后的数据集结到磁盘
紧接着是规格化步骤,包括: