-
如何撰写被引用的科学论文和获得资助的提案:维表代理键管理方法
资源介绍
图 5.16 维表代理键管理
对于只有十几个字段,几千条纪录的小维度来说,比如说一个简单产品列表,
在图 5.16 中所展示的那种变化的监测可以通过强制执行完成。今天所下载所有
字段的所有纪录与昨天的所有字段的所有纪录相比较。增加的,变化的,删除的
都需要被检测到。但是对于大维度,比如说一千万条加入医疗保险的患者名单,
每名患者还有一百个描述字段,那么刚才所提到的那种对比所有纪录的方法效率
就显得十分低下。如果是大维度的情况下,可以使用一种特殊编码作为循环冗余
码校验。在这种情况下,使用一种被称为 CRC 的特殊编码计算并且关联到昨天的
每条记录。CRC 的数据类型是长整形,大约 20 位,对于每条纪录的信息内容非
常敏感。如果记录中有一个字母发生了变化,那么这条纪录的 CRC 码会变得与以
前完全不同。这样我们捕获变化数据就会十分方便。我们只需把整条记录看作一
个单独字符串,计算每条新建纪录的 CRC 码,然后对比 CRC 码。如果 CRC 码相
同,我们立即转向下条纪录。如果不同,则停止对比纪录的每个字段,找出发生
的变化。通过第 10 种因数使用 CRC 码技术可以提高变化数据捕获的效率。在本
书写作之时,所有主要 ETL 产品都可以应用 CRC 码计算模型。而且,执行 CRC