-
论文研究 - 应用深度学习技术对MRI数据进行粗略估算,以实现自动识别阿尔茨海默病
资源介绍
4.1 粗略估算
确定合适的粒度级的起点,是粗略估算数据仓库中将来的数据行数和所需 D A S D(直接存
取存储设备)数。毫无疑问,即使在最好的情况下我们也仅能做一下估计。但在建立数据仓库
之初,所需的只是一个数量级上的估计。
有一个计算数据仓库所占的空间的算法,如图
4 - 1所示。第一步是确定数据仓库中将要创建的所
有表。然后,估计每张表中的行的大小。确切大
小可能难以知道,估计一个下界和一个上界就可
以了。
接下来,估计一年内表中的最少行数和最多
行数。这是设计者所要解决的最大问题。比方说
一个顾客表,就应该估计在一定的商业环境和该
公司的商业计划影响下的当前的顾客数;如果当
前没有业务,就估计为总的市场业务量乘以市场
份额;如果市场份额不可知的话,就用竞争对手
的业务量来估计。总之,要从一方或多方收集顾
客的合理估算信息开始。
如果数据仓库是用来存放业务活动的话,就要
估计顾客数量,以及估计每个时间单位内业务活
动量。同样,可用相同的方法分析当前的业务量、
竞争对手的业务量、经济学家的预测报告,等等。
一旦估计完一年内数据仓库中数据单位的数量(用上下限推测的方法),就用同样的方法对
五年内的数据进行估计。
粗略数据估计完后,就要计算一下索引数据所占的空间。对每张表(对表中的每个键码)确
定键码的长度和原始表中每条数据是否存在键码。
现在将各表中行数可能的最大值和最小值分别乘以数据的最大长度和最小长度。另外,
还要将索引项的数目与键码的长度的乘积累加到总的数据量中去。
估计数据仓库环境中的行数/空间大小
1. 对每一个已知的表:
计算一行所占字节数的
-最大估计值
-最小估计值
对一年内:
最大行数可能是多少?
最小行数可能是多少?
对五年内:
最大行数可能是多少?
最小行数可能是多少?
对表的每个键码:
该键码的大小(按字节)是多少?
一年总的最大空间=最大行大小×一年内最大行数
一年总的最小空间 =最小行大小×一年内最小行数
累加索引空间
2. 对所有已知的表重复第 1步。
图4-1 空间/行数计算