-
如何撰写能够被引用的科学论文和获得资助的提案——集结数据
资源介绍
3.1 是否集结数据
是将数据存储在物理集结区还是在内存中直接处理?这个问题是 ETL 架构中
最根本的选择之一。开发的 ETL 处理的效率很大程度上取决于能否很好地均衡物
理 I/O 与内存处理。
能够在将数据写入集结表和保持在内存两种方法间取得理想的均衡是个很
大的挑战,也是优化处理过程中必需考虑的问题。最终的决定取决于下面的两个
彼此矛盾的目标:
将数据以最快的速度从数据源获取到最终目标
在处理过程发生错误时,能够进行恢复而无需从头开始
根据环境和业务需求的不同,数据集结的策略会有很大的不同。如果计划在
内存中处理所有的 ETL 数据处理,不要忘记任何一种数据仓库,无论其架构和运