-
tinyxml指南[中文]关于关联强度
资源介绍
图 8.7 关联强度
8.2.7 部署
请想一想 Avg_Age 和 Temperature 之间的关联系数: -0.673。 我们看到这被视为比
较强的负关联。 在家庭居住人员的年龄增加时,户外平均温度在下降;并且在温度上升时,
居住人员的年龄在下降。 但家庭居住人员的平均年龄会对家庭年均户外温度有影响吗? 当
然不会。 如果会有影响,我们只要让不同年龄的人搬入或搬出家庭,即可控制温度。 这当
然非常愚蠢。 尽管统计表明,在我们的数据集中,这两个属性之间存在一定的关联,但没
有合理的理由表明为什么一个属性的变动会导致另一个属性的变动。 这一关系可能纯属巧
合,但如果不是,肯定会有一些我们的模型无法提供的其他解释。 在进行所有数据挖掘部
署决策时,必须认识到并接受此类局限。
对关联的另一种错误解读是关联是百分比,即如果两个属性之间的关联系数为 0.776,
就表示这两个属性之间的变化相似性为 77.6%。 这是不正确的。 尽管关联系数确实能够
表明属性之间的变化相似性,但用于计算关联系数的基本数学公式只是用于衡量属性之间的
关联强度(按与 1 或 -1 的接近程度来表示), 未计算也未打算计算任何百分比。
了解了这些解读参数后,Sarah 可以进行多项工作,以便根据我们的模型采取行动。 其
中的一些选项可能包括:
去掉 Num_Occupants 属性。 尽管家庭中的居住人数可能从逻辑上看起来像是一个
- 上一篇: 支持度计数-tinyxml指南[中文]
- 下一篇: 相关矩阵模型建立流程-tinyxml指南[中文]