当前位置:主页 > 资源下载 > 50 > 构建模型以利用广告和用户的分类特征，灵感源自Coffee Break Python

构建模型以利用广告和用户的分类特征，灵感源自Coffee Break Python

更新：2024-09-12 16:43:14
大小：6.69MB
推荐：★★★★★
来源：网友上传分享
类别：数据集 - 行业研究
格式：PDF

反馈 / 投诉

资源介绍

1.1基于广告和用户的分类特征建立模型 1.1.1聚类算法在用户行为特征分析模块中，需要通过聚类对用户访问的同一类网页进行相似性聚合。聚类（就是按照某个特定标准如距离准则分割一个数据集为不同的簇或类，使得同一个簇内的数据对象拥有尽可能高的相似度，不同簇中的数据对象的相似度尽可能低。即聚类后同一类的数据尽可能聚集到一起，不同类用户行为特征分析关键技术数据尽量分离聚类分析以相似性为基础，在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。聚类算法有很多种，对于具体的应用，聚类算法的选择取决于数据的类型、聚类的目的等。主要的聚类算法可以分为如下几种：划分法、层次法、基于密度的方法、基于网格的方法以及基于模型的方法。其中 k-means是划分法中较经典的聚类算法之一。由于该算法的效率高，所以广泛应用于大规模数据聚类。目前，以该算法为基础扩展和改进出了许多新算法。k-means算法以 k为参数，把 n个数据对象分成 k个不同的簇，使得簇间数据相似度较低，簇内数据相似度较高。聚类过程为：首先任意地选择出 k个数据对象，其中每个对象代表了一个簇的初始质心或平均值，然后分别计算剩下的每个数据对象与各簇质心的距离，并将该数据对象归为距离最近的族，最后重新计算该簇的质心。根据用户行为特征分析的实际需要，本文在 k-means聚类算法的基础上扩展出一种简单聚类算法，接下来结合 k-means算法在网页聚合中的实际应用，对该算法进行详细解析。网页特征词被提取出之后，然后该聚类算法依赖于向量空间模型进行相似网页聚合。聚合时需要给定一个标准β，当两个网页的相似度大于该标准值时，它们被认为是相似网页并被归为同一簇，在由相似网页组成的网页簇中，簇的质心计算方法为：

上一篇: AutoStart.tar.gz
下一篇: C# 人脸识别Demo(基于虹软免费SDK)

相关推荐

12-02 构建模型以利用广告和用户的分类特征，灵感源自Coffee Break Python

构建模型以利用广告和用户的分类特征，灵感源自Coffee Break Python

资源介绍

热门标签

资源声明