登录 注册
当前位置:主页 > 资源下载 > 35 > tinyxml指南[中文]关于关联强度

tinyxml指南[中文]关于关联强度

  • 更新:2024-05-22 12:29:20
  • 大小:6.46MB
  • 推荐:★★★★★
  • 来源:网友上传分享
  • 类别:算法与数据结构 - 大数据
  • 格式:PDF

资源介绍

图 8.7 关联强度 8.2.7 部署 请想一想 Avg_Age 和 Temperature 之间的关联系数: -0.673。 我们看到这被视为比 较强的负关联。 在家庭居住人员的年龄增加时,户外平均温度在下降;并且在温度上升时, 居住人员的年龄在下降。 但家庭居住人员的平均年龄会对家庭年均户外温度有影响吗? 当 然不会。 如果会有影响,我们只要让不同年龄的人搬入或搬出家庭,即可控制温度。 这当 然非常愚蠢。 尽管统计表明,在我们的数据集中,这两个属性之间存在一定的关联,但没 有合理的理由表明为什么一个属性的变动会导致另一个属性的变动。 这一关系可能纯属巧 合,但如果不是,肯定会有一些我们的模型无法提供的其他解释。 在进行所有数据挖掘部 署决策时,必须认识到并接受此类局限。 对关联的另一种错误解读是关联是百分比,即如果两个属性之间的关联系数为 0.776, 就表示这两个属性之间的变化相似性为 77.6%。 这是不正确的。 尽管关联系数确实能够 表明属性之间的变化相似性,但用于计算关联系数的基本数学公式只是用于衡量属性之间的 关联强度(按与 1 或 -1 的接近程度来表示), 未计算也未打算计算任何百分比。 了解了这些解读参数后,Sarah 可以进行多项工作,以便根据我们的模型采取行动。 其 中的一些选项可能包括:    去掉 Num_Occupants 属性。 尽管家庭中的居住人数可能从逻辑上看起来像是一个