-
Data-mining: 数据挖掘中使用的k-means聚类算法及Matlab实现代码
资源介绍
k-means聚类算法及matlab代码
数据挖掘实验
实验一:相似度、距离、最近邻分类器
1、实验目的
(1)理解相似度、距离的度量方式。
(2)理解最近邻分类器的工作原理。
2、实验内容
(1)、实现任意给定两个相同维度的向量之间的欧氏距离计算函数
function
dist
=
dist_E(x,y)
(2)、实现任意给定两个相同维度的向量之间的夹角余弦相似度计算函数
function
sim
=
sim_COS(X,Y)
(3)、实现K最近邻算法
KNN算法思想
输入参数:k值、trainingSamples(训练数据集,MN矩阵,M为样本数,N为属性
数)、trainingLabels(训练数据集的分类标签0、1、2...,M1矩阵),
testingSample
(测试数据,1*N矩阵)
输出参数:class(测试数据对应类别标签)
算法流程:
得到训练数据集trainingSamples的大小M,N
初始化Distance数组(M*1),用来存储每个训练样本与测试样本的距离。
对每一个训练样本trainingSamples(i,:)【for
i=1:M】,计算其与测试样本