登录 注册
当前位置:主页 > 资源下载 > 如何撰写被引用的科学论文和获得资助的项目提案:数据流主线

如何撰写被引用的科学论文和获得资助的项目提案:数据流主线

  • 更新:2024-08-11 16:40:50
  • 大小:4.73MB
  • 推荐:★★★★★
  • 来源:网友上传分享
  • 类别:系统集成 - 网络技术
  • 格式:PDF

资源介绍

1.3 数据流主线 数据流主线可能是大多数读者最熟悉的,因为可以认为这是常规的 ETL(抽 取-转换-加载)场景的一个简单的概括。当你阅读下面的列表时,你可以开始 去想像规划&设计主线是如何影响下列每一因素的。抽取步骤包括:  读取源数据模型  连接并访问数据  调度源系统,截取通知和后台程序  捕获变化数据  将抽取的数据集结到磁盘 清洗步骤包括:  强制列属性  强制结构  强制数据和数值规则  强制复杂业务规则  创建元数据来描述数据质量  将清洗后的数据集结到磁盘 紧接着是规格化步骤,包括: