-
tinyxml指南[中文]中的支持度计数
资源介绍
(4) 支持度计数
项集 A 的支持度计数是事务数据集中包含项集 A 的事务个数,简称为项集的频率或计
数。
已知项集的支持度计数,则规则 A B 的支持度和置信度很容易从所有事务计数、项
集 A 和项集 A B 的支持度计数推出:
, _ ( )
( ) =
_ ( )
A B Support count A B
Support A B
Total count A
同时发生的事务个数
所有事务个数
(8-3)
( ) _ ( )
( ) ( | )
( ) _ ( )
Support A B Support count A B
Confidence A B P B A
Support A Support count A
(8-4)
也就是说,一旦得到所有事务个数,A,B 和 A B 的支持度计数,就可以导出对应的
关联规则 A B 和 B A ,并可以检查该规则是否是强规则。
2. Ariori 算法:使用候选产生频繁项集
Apriori 算法的主要思想是找出存在于事务数据集中的最大的频繁项集,在利用得到的
最大频繁项集与预先设定的最小置信度阈值生成强关联规则。
(1) Apriori 的性质
频繁项集的所有非空子集也必须是频繁项集。根据该性质可以得出:向不是频繁项集 I
的项集中添加事务 A,新的项集 I A 一定也不是频繁项集。
(2) Apriori 算法实现的两个过程:
1) 找出所有的频繁项集(支持度必须大于等于给定的最小支持度阈值),在这个过程
中连接步和剪枝步互相融合,最终得到最大频繁项集 kL 。
- 上一篇: 最小支持度和最小置信度-tinyxml指南[中文]
- 下一篇: 关联强度-tinyxml指南[中文]