-
tinyxml指南[中文]的文档数据
资源介绍
(1) 连续属性
对于连续属性,要先对各属性值进行零-均值规范,再进行距离的计算。K-Means 聚类
算法中,一般需要度量样本之间的距离、样本与簇之间的距离以及簇与簇之间的距离。
度量样本之间的相似性最常用的是欧几里得距离、曼哈顿距离和闵可夫斯基距离;样
本与簇之间的距离可以用样本到簇中心的距离 ( , )id e x ;簇与簇之间的距离可以用簇中心的
距离 ( , )i jd e e 。
用 p 个属性来表示 n 个样本的数据矩阵如下:
11 1
1
p
n n p
x x
x x
欧几里得距离
2 2 2
1 1 2 2( , ) ( ) +( ) + +( )i j i j ip jpd i j x x x x x x (9-1)
曼哈顿距离
1 1 2 2( , ) | |+ | |+ +| |i j i j ip jpd i j x x x x x x (9-2)
闵可夫斯基距离
1 1 2 2( , ) |( |) + (| |) + +(| |)
q q qq
i j i j ip jpd i j x x x x x x (9-3)
q 为正整数, =1q 时即为曼哈顿距离; =2q 时即为欧几里得距离。
(2) 文档数据
对于文档数据使用余弦相似性度量,先将文档数据整理成文档—词矩阵格式,如表 9-3。
表 9-3 文档—词矩阵
lost win team score music happy sad … coach
文档一 14 2 8 0 8 7 10 … 6
文档二 1 13 3 4 1 16 4 … 7
文档三 9 6 7 7 3 14 8 … 5
两个文档之间的相似度的计算公式为:
( , ) cos( , )
| || |
i j
d i j i j
i j
(9-4)
- 上一篇: 小波变换-tinyxml指南[中文]
- 下一篇: Qt加载百度离线地图