-
构建模型以利用广告和用户的分类特征,灵感源自Coffee Break Python
资源介绍
1.1基于广告和用户的分类特征建立模型
1.1.1聚类算法
在用户行为特征分析模块中,需要通过聚类对用户访问的同一类网页进行相
似性聚合。聚类(就是按照某个特定标准如距离准则分割一个数据集为不同的簇
或类,使得同一个簇内的数据对象拥有尽可能高的相似度,不同簇中的数据对象
的相似度尽可能低。即聚类后同一类的数据尽可能聚集到一起,不同类用户行为
特征分析关键技术数据尽量分离聚类分析以相似性为基础,在一个聚类中的模式
之间比不在同一聚类中的模式之间具有更多的相似性。
聚类算法有很多种,对于具体的应用,聚类算法的选择取决于数据的类型、
聚类的目的等。主要的聚类算法可以分为如下几种:划分法、层次法、基于密度
的方法、基于网格的方法以及基于模型的方法。其中 k-means是划分法中较经
典的聚类算法之一。由于该算法的效率高,所以广泛应用于大规模数据聚类。目
前,以该算法为基础扩展和改进出了许多新算法。k-means算法以 k为参数,把
n个数据对象分成 k个不同的簇,使得簇间数据相似度较低,簇内数据相似度较
高。
聚类过程为:首先任意地选择出 k个数据对象,其中每个对象代表了一个簇
的初始质心或平均值,然后分别计算剩下的每个数据对象与各簇质心的距离,并
将该数据对象归为距离最近的族,最后重新计算该簇的质心。
根据用户行为特征分析的实际需要,本文在 k-means聚类算法的基础上扩
展出一种简单聚类算法,接下来结合 k-means算法在网页聚合中的实际应用,
对该算法进行详细解析。
网页特征词被提取出之后,然后该聚类算法依赖于向量空间模型进行相似
网页聚合。聚合时需要给定一个标准β,当两个网页的相似度大于该标准值时,
它们被认为是相似网页并被归为同一簇,在由相似网页组成的网页簇中,簇的质
心计算方法为:
- 上一篇: AutoStart.tar.gz
- 下一篇: C# 人脸识别Demo(基于虹软免费SDK)