登录 注册
当前位置:主页 > 资源下载 > 50 > 构建模型以利用广告和用户的分类特征,灵感源自Coffee Break Python

构建模型以利用广告和用户的分类特征,灵感源自Coffee Break Python

  • 更新:2024-09-12 16:43:14
  • 大小:6.69MB
  • 推荐:★★★★★
  • 来源:网友上传分享
  • 类别:数据集 - 行业研究
  • 格式:PDF

资源介绍

1.1基于广告和用户的分类特征建立模型 1.1.1聚类算法 在用户行为特征分析模块中,需要通过聚类对用户访问的同一类网页进行相 似性聚合。聚类(就是按照某个特定标准如距离准则分割一个数据集为不同的簇 或类,使得同一个簇内的数据对象拥有尽可能高的相似度,不同簇中的数据对象 的相似度尽可能低。即聚类后同一类的数据尽可能聚集到一起,不同类用户行为 特征分析关键技术数据尽量分离聚类分析以相似性为基础,在一个聚类中的模式 之间比不在同一聚类中的模式之间具有更多的相似性。 聚类算法有很多种,对于具体的应用,聚类算法的选择取决于数据的类型、 聚类的目的等。主要的聚类算法可以分为如下几种:划分法、层次法、基于密度 的方法、基于网格的方法以及基于模型的方法。其中 k-means是划分法中较经 典的聚类算法之一。由于该算法的效率高,所以广泛应用于大规模数据聚类。目 前,以该算法为基础扩展和改进出了许多新算法。k-means算法以 k为参数,把 n个数据对象分成 k个不同的簇,使得簇间数据相似度较低,簇内数据相似度较 高。 聚类过程为:首先任意地选择出 k个数据对象,其中每个对象代表了一个簇 的初始质心或平均值,然后分别计算剩下的每个数据对象与各簇质心的距离,并 将该数据对象归为距离最近的族,最后重新计算该簇的质心。 根据用户行为特征分析的实际需要,本文在 k-means聚类算法的基础上扩 展出一种简单聚类算法,接下来结合 k-means算法在网页聚合中的实际应用, 对该算法进行详细解析。 网页特征词被提取出之后,然后该聚类算法依赖于向量空间模型进行相似 网页聚合。聚合时需要给定一个标准β,当两个网页的相似度大于该标准值时, 它们被认为是相似网页并被归为同一簇,在由相似网页组成的网页簇中,簇的质 心计算方法为: