-
使用深度学习方法从MRI数据中自动识别阿尔茨海默病的复杂性-论文研究 - 转换与集成
资源介绍
3.10 转换和集成的复杂性
粗略一看,当数据从传统环境转入数据仓库时,除了简单地从一个地方抽取数据再放入
另一处,并没有做别的什么。由于表面上看起来很简单,很多组织开始手工建立他们的数据
仓库。程序员只看到了数据从旧的操作型环境到新的数据仓库环境中的简单流动就轻率地说:
“我可以做到!”于是,在数据仓库设计、开发伊始,程序员往往就着手编写代码。
然而,第一印象通常是非常靠不住的。开始时认为仅仅是数据在不同环境中的简单传送,
很快就会变成一个巨大的复杂的任务—比程序员所考虑的要大得多复杂得多。
准确地说,数据从操作型环境到数据仓库环境的传递要完成什么功能呢?下面就是所要
完成的某些功能。
■ 从原始操作型环境到数据仓库环境的数据抽取需要实现技术上的变化。一般包括,从
操作型系统获取数据的数据库管理系统 ( D B M S )技术,如 I M S,以及将数据写入更新的
数据仓库的D B M S技术,如 I N F O R M I X。在数据传递过程中需要实现技术的转移。
■ 从操作型环境中选择数据是非常复杂的。为了判定一个记录是否可进行抽取处理,往
往需要完成对多个文件中其他记录的多种协调查询,需要进行键码读取,连接逻辑等。
■ 操作型环境中的输入键码在输出到数据仓库之前往往需要重新建立。在操作型环境中
读出和写入数据仓库系统时,输入键码很少能够保持不变。在简单情况下,在输出键
码结构中加入时间成分。在复杂情况下,整个输入键码必须被重新散列或者重新构造。
■ 数据被重新格式化。举一个简单例子:有关日期的输入数据格式是 Y Y / M M / D D,当它
被写入输出文件时,需要转化为 D D / M M / Y Y的格式。 (操作型数据进入数据仓库之前的
格式转换往往比这要复杂得多。 )
■ 数据将被清理。在某些情况下,为了保证输入数据的正确性,需要一个简单的算法。
在复杂情况下,需要调用人工智能的一些子程序把输入数据清理为可接受的输出形式。
■ 存在多个输入数据源。在某些情况下数据仓库中数据项的来源是一个文件,而在另外
一些情况下,则为另外一个文件。逻辑上必须分清楚,以便由适当的数据源提供正确
条件下的数据。
■ 当存在多个输入文件时,进行文件合并之前要首先进行键码解析。这意味着如果不同
的输入文件使用不同的键码结构。那么,完成文件合并的程序必须提供键码解析功能。
■ 当存在多个输入文件时,这些文件的顺序可能不相同甚至互不相容。在这种情况下这
些输入文件需要进行重新排序。当有许多记录需要进行重新排序时可能有些困难,但
可惜的是,通常都是这种情况。
■ 可能会产生多个输出结果。同一个数据仓库的创建程序会产生不同概括层次之上的结
果。
■ 需要提供缺省值。有时候,数据仓库的一个输出值没有对应的输入源。这时,必须提
供缺省值。
■ 对抽取选择输入的数据,其效率通常是一个问题。我们考虑一个情况,在刷新的时候,
我们没有办法将需要抽取的操作型数据和不需要抽取的操作型数据区别开来。这时,
必须读取整个文件。而读取整个文件的方法效率很低,因为在一个文件中,只有一小
部分的记录是用得上的。这将导致在线环境一直处于活动状态,进而挤掉了其他的处
70 数 据 仓 库
下载